1、安装jieba第三方库
jieba库是优秀的中文分词库,它能够将句子分成词语。
安装方法:
在cmd命令行中输入:pip install jieba
电脑在联网的情况下会自动下载安装jieba库
2、程序代码:
#XiyoujiV1.py
import jieba
txt = open(‘redstone.txt’, ‘r’, encoding = ‘utf-8’).read() #读取txt文件
words = jieba.lcut(txt) #使用jieba库进行精确模式分词,返回一个列表类型的分析结果
counts = {} #创建字典数据类型
for word in words: #统计词出现的次数
if len(word) == 1:
continue
else:
counts[word] = counts.get(word,0)+1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15): #输出出现次数较多的前15个人物
word, count = items[i]
print("{0:<10}{1:>5}".format(word, count))
3、下载红楼梦的文本文档,保存为.txt格式
4、运行程序后出现了如下错误提示: