新建一个字典,对读取的文本进行词频的统计。
fi = open('xx.txt','r',encoding='utf-8')
txt=fi.read()
fi.close()
ls=jieba.lcut(txt)
d = {}
for c in ls:
d[c]=d.get(c,0)+1
如果想删去标点符号,可以使用del d[]
#删去标点符号的统计
sym = '!@#$%^&*()_+-{}[]:";'<>?,./'
for x in sym:
del d[x]
排序算法
new_ls=list(d.items())#字典转列表
new_list.sort(key=lambda x:x[1],reverse=True)#使用匿名函数对进行排序
输出:假设输出前8个词
for i in range(8):
word,count=new_ls[i]#将(a,b)中的值赋给word count,便于输出
print('{}:{}'.format(word,count))