继续了解
NLTK
《用
Python
玩转数据》
by Dazhuang@NJU
NLTK
包括获取语料库、字符串处理、搭配发现、词性标注、机器学习、分块
解析、语义解释、指标评测、概率与估计等多项语言任务,在处理时非常方便,例如要载入
并去掉停用词可用类似如下几行简单代码就可以完成:
from nltk.corpus import stopwords
stopwords = stopwords.words('english')
…
if words not in stopwords
…
再以布朗语料库中的一个经典的例子来了解
NLTK
和条件频率分布的功能。
布朗语料库中有不同类别的文本,每种类别文本中包含多个词,例如想要获得新闻文
体中所有的词可用
words()
函数获得:
>>> from nltk.corpus import brown
>>> brown.words(categories = 'news')
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
>>> brown.words(fileids = 'ca16')
['Romantic', 'news', 'concerns', 'Mrs