python笔记：jieba分词与wordcloud词云的使用

最新推荐文章于 2024-10-07 11:58:02 发布

阏zZ~

最新推荐文章于 2024-10-07 11:58:02 发布

阅读量1k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/New_Ape/article/details/98475342

版权

本文介绍了如何使用jieba对《三国演义》进行分词，统计并展示人物出现次数。首先，解决文件读取的编码问题，接着通过字典统计词频并按降序排列，提取出排名前十的人物。同时，对数据进行清洗，处理同义词。最后，利用WordCloud生成词云图像，呈现高频词汇。

摘要由CSDN通过智能技术生成

python笔记：jieba分词

运用jieba对三国演义进行分词，统计出现人物次数排行前十的人物：
首先加载文件

txt = open('三国演义.txt','r',encoding='utf-8').read()

在这里插入图片描述
如果文件报错，出现UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xc8 in position 0异常，这里解决办法有两种，一种是改变encoding ，将utf-8改为gb18030 ，或者将文件另存为，书将编码改为UTF-8

words = jieba.lcut(txt)  #jieba库的精确模式
counts = {}
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word]= counts.get(word,0)+1
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)

创建一个空的字典counts，索引word中的单词，从而进行对出现词语的统