今天的内容涉及对语言简单的统计和Python基本控制流程(if,for)。
一.计算语言
1.频率分布
FreqDist函数:需要一个文本作为参数,返回一组键值对,键是单词,值时单词在文中出现的次数。
fdist1 = FreqDist(text1)
plot函数:通过参数,可以绘制单词的频率图,或者累积频数图。
fdist1.plot(50,cumulative=True) 绘制fdist1的50个出现频率最高的词的累积频数图。
2.细粒度的选择词
V=set(text1) #将V赋值为text1的单词的集合(集合肯定没有重复的元素)
long_words=[w for w in V if len(w)>15] #选出长度大于15的单词
sorted(long_words) #给单词按照字母顺序排序
应用举例:求语料库中所有长度超过7&