计算语言:简单的统计
一、频率分布
⑴ FreqDist(test)
将文本名称作为参数,形成字典,得到每个标识符的频率分布
>>> fd1=FreqDist(text1)
>>> fd1
FreqDist({
',': 18713, 'the': 13721, '.': 6862, 'of': 6536, 'and': 6024, 'a': 4569, 'to': 4542, ';': 4072, 'in': 3916, 'that': 2982, ...})
>>> fd1['is'] //查找'is'出现的次数
1695
⑵ hapaxes()
对只出现一次词的统计
fd1.hapaxes()
['Herman', 'Melville', ']', 'ETYMOLOGY', 'Late', 'Consumptive', 'School', 'threadbare', 'lexicons', 'mockingly', 'flags', 'mortality', 'signification', '...]
如何把握文本的主题和风格:
⑶ plot()
展现变量的趋势