python笔记:jieba分词与wordcloud词云的使用

本文介绍了如何使用jieba对《三国演义》进行分词,统计并展示人物出现次数。首先,解决文件读取的编码问题,接着通过字典统计词频并按降序排列,提取出排名前十的人物。同时,对数据进行清洗,处理同义词。最后,利用WordCloud生成词云图像,呈现高频词汇。
摘要由CSDN通过智能技术生成

python笔记:jieba分词

运用jieba对三国演义进行分词,统计出现人物次数排行前十的人物:
首先加载文件

txt = open('三国演义.txt','r',encoding='utf-8').read()

在这里插入图片描述
如果文件报错,出现UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xc8 in position 0异常,这里解决办法有两种,一种是改变encoding ,将utf-8改为gb18030 ,或者将文件另存为,书将编码改为UTF-8在这里插入图片描述

words = jieba.lcut(txt)  #jieba库的精确模式
counts = {}
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word]= counts.get(word,0)+1
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)

创建一个空的字典counts,索引word中的单词,从而进行对出现词语的统

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值