高频词提取 -------提取一篇文章中出现最多的词
1.需要cmd库 pip install jieba (分词)
jieba.lcut() 分词函数
hist.sort(key=lambda x: x[1], reverse=True) # 排序 还是降序
# -*- coding:utf-8 -*-
import jieba
content = open('meizu.txt', 'r', encoding='utf-8').read()
words = jieba.lcut(content)
counts = {}
for word in words:
if len(word) == 1: # 排除单个字的分词结果
continue
else:
counts[word] = counts.get(word, 0) + 1 # dict用法
hist = list(counts.items()) # 形成列表
hist.sort(key=lambda x: x[1], reverse=True)
for i in range(20): #输出高频前20个词
word, count = hist[i]
print("{:<10}{:>5}".format(word, count))
2.注意文件的路径问题不要出错
3.还有txt文件的编码格式也需要修改(一般为utf-8),或者换一个编码格式
需要处理的原txt文件:
结果如下: