数据清洗
编写代码清洗数据
数据存储后再清洗
strip() 方法用于移除字符串头尾指定的字符(默认为空格)。
string.punctuation 来获取 Python 所有的标点符
自然语言处理
马尔可夫模型
广度优先搜索
广度优先搜索算法的思路是优先搜寻直接连接到起始页的所有链接(而不是找到一个链接 就纵向深入搜索)。如果这些链接不包含目标页面(你想要找的词条),就对第二层的链 接——连接到起始页的页面的所有链接——进行搜索。这个过程不断重复,直到达到搜索 深度限制(本例中使用的层数限制是 6 层)或者找到目标页面为止。
自然语言工具包
自然语言工具包(Natural Language Toolkit,NLTK)就是这样一个 Python 库,用于识别和 标记英语文本中各个词的词性(parts of speech)。
用 NLTK 做统计分析一般是从 Text 对象开始的。
from nltk import word_tokenize from nltk import Text
个频率分 布对象 FreqDist
用NLTK做词性分析
同一个词在不同的语境中可能会导致意思混乱
数据存储后再清洗
strip() 方法用于移除字符串头尾指定的字符(默认为空格)。
string.punctuation 来获取 Python 所有的标点符