python爬虫 第6天 数据清洗 自然语言处理 128页

数据清洗

编写代码清洗数据

数据存储后再清洗

strip() 方法用于移除字符串头尾指定的字符(默认为空格)。

 string.punctuation 来获取 Python 所有的标点符



自然语言处理


马尔可夫模型

广度优先搜索
广度优先搜索算法的思路是优先搜寻直接连接到起始页的所有链接(而不是找到一个链接 就纵向深入搜索)。如果这些链接不包含目标页面(你想要找的词条),就对第二层的链 接——连接到起始页的页面的所有链接——进行搜索。这个过程不断重复,直到达到搜索 深度限制(本例中使用的层数限制是 6 层)或者找到目标页面为止。

自然语言工具包

自然语言工具包(Natural Language Toolkit,NLTK)就是这样一个 Python 库,用于识别和 标记英语文本中各个词的词性(parts of speech)。

用 NLTK 做统计分析一般是从 Text 对象开始的。

from nltk import word_tokenize from nltk import Text 

个频率分 布对象 FreqDist 


用NLTK做词性分析 

同一个词在不同的语境中可能会导致意思混乱























数据存储后再清洗

strip() 方法用于移除字符串头尾指定的字符(默认为空格)。

 string.punctuation 来获取 Python 所有的标点符


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值