freq=FreqDist(text2)#统计text2中出现的所有词,以及每个词出现的次数
vacabulary=freq.keys()#1中的结果为键值对,此操作可以用来取词汇表
freq["ought"]#由1中的结果取某一个词的词频
freq.plot(50,cumulative=True)#根据1中的结果绘制前50个词的累计频率图
freq.hapaxes()#取1中只出现了一次的词
细粒度的选择词
[w for w in set(text3) if len(w)>15]#取text中长度大于15的词作为链表输出
词语搭配和双连词
from nltk import bigrams#引bigrams包
list(bigrams(['more','is','said','than','done']))#取链表中的双连词[('more', 'is'), ('is', 'said'), ('said', 'than'), ('than', 'done')]
text4.collocations()#取text4中频率较高的双连词
length=[len(w) for w in text2]#取所有的词长
fdist=FreqDist(length)#取词长的分布
fdist.items()#取频率分布情况dict_items
fdist.max()#取最大值项
fdist[3]#取长度为3的频数
fdist.freq(3)#取长度为3的频率