我用的是jieba这个很好用的中文分词库,大家可以已通过pip安装这个库,最好是通过清华大学镜像站安装,速度快,而腾讯云的镜像站没有这个库。
更换清华镜像源
> pip install pip -U
> pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
> pip install jieba
import jieba
txt1 = open("D:\\白夜行.txt", "r", encoding="ANSI").read()#文件位置
words = jieba.lcut(txt1)
cnt = {}
for i in words:
if len(i) == 1:
continue
else:
cnt[i] = cnt.get(i, 0) + 1
list1 = list(cnt.items())
list1.sort(key=lambda x: x[1], reverse=True)
for i in range(100):
word, num = list1[i]
print(i + 1, word, num)
运行结果: