因为NLTK库的出现,词频统计的方法更简单,结果也更加准确,NLTK的使用可参考:【自然语言处理】词性标注
在对英文文章实现较为简单的词频统计时,我们可以从以下几个细节入手
- 英文中两个词之间一定有空格隔开
- 对英文文章应该先进行小写处理
- 分词后带有逗号、句号等标点符号的词应该去标点符号
- 词频较小的词(比如<=3)可以忽略掉
核心代码如下:(contents
是一个列表,每个元素是txt文件的每一行)
import string
dic = {}
t = []
for line in contents: # 每一行
for i in line: # 去标点, string.punctuation:返回所有标点集
if i in string.punctuation:
line = line.replace(i, " ")
t = line.lower().split() # 转小写,并根据空格分词
for word in t: # 每个词
if word not in dic:
dic[word] = 1
else:
dic[word] = dic[word] + 1
res = sorted(dic.items(), key=operator.itemgetter(1), reverse=True) # 排序的结果是list类型
for item in res:
if item[1] > 3:
print(item)
参考:
[1] 利用python做词频统计
[2] python3小技巧之:妙用string.punctuation