NLTK很擅长生成一些统计信息,包括对一段文字的单词数量,单词频率和单词词性的统计。如果你只需要做一些简单直接的计算(如,计算一段文字中不重复单词的数量),导入NLTK模块就太大材小用了--它是一个非常大的模块。但是,如果你还需要对文本做一些更有深度的分析,那么里面有很多函数可以帮你完成任何需要的统计指标。
用NLTK做统计分析一般是从Text对象开始的。Text对象可以直接通过下面的方法用简单的Python字符串来创建:
from nltk import word_tokenize
from nltk import Text
tokens=word_tokenize("Here is some not very interesting text")
text=Text(tokens)
word_tokens函数的参数可以是任何Python字符串。如果你手边没有任何长字符串,但是还想尝试一些功能,在NTLK库里已经内置了几本书,可以通过import函数导入:
from nltk.book import *
这样会加载九本书,加载结果如下图所示: