python统计三国高频词，画条形图，绘词云图

青衫木马牛

已于 2023-06-01 14:25:13 修改

阅读量2.1k

点赞数 3

文章标签： python 开发语言

于 2023-05-23 23:58:10 首次发布

本文链接：https://blog.csdn.net/qq_47289634/article/details/130837802

版权

文章目录

前言
思路
代码
效果
总结

前言

记录一次期末作业，要求：
1、统计三国演义（下卷）前十的高频词，含出现次数。
2、根据上题结果，绘制高频词出现次数的条形图。
3、生成三国演义（下卷）词云图

思路

1.open打开读取整篇文档
2.使用split()方法找到关键字，分开上下卷
3.使用jieba进行中文分词
4.使用Counter统计词频并将前10个高频词使用append添加到列表
5.使用matplotlib模块中的plt函数绘制条形图
6.使用WordCloud模块用刚才保存的高频词列表生成词云图

代码

import jieba
from collections import Counter
from wordcloud import WordCloud  # 导入词云图生成模块
import matplotlib.pyplot as plt  # 导入绘图模块
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体为SimHei
w = []  # 搞个列表，用来放排名前10的词汇
# 读取文本文件
with open('三国.txt', 'r', encoding='utf-8') as f:  # 打开文本文件，以utf-8编码方式读取，并赋值给变量f
    book = f.read()  # 读取文件内容，并赋值给变量text
    text = book.split('三国演义 下卷')[1]  # 找到关键字分开上下卷，赋值给text

# 使用jieba进行中文分词
words = jieba.cut(text)
# 过滤掉长度小于2的词
filtered_words = [word for word in words if len(word) > 1]
# 统计词频并输出前10个高频词
counter = Counter(filtered_words)
top10 = counter.most_common(10)
for word, count in top10:
    print(f'{word}: {count}')
    w.append(word)  # 把统计的词添加到列表

# 绘制条形图
x = [word for word, count in top10]  # 将top10列表中每个元素的第一个元素（即词语）赋值给列表x
y = [count for word, count in top10]  # 将top10列表中每个元素的第二个元素（即出现次数）赋值给列表y
plt.bar(x, y)  # 绘制条形图，其中x轴为词语，y轴为出现次数
plt.title('三国演义（下卷）前十的高频词')  # 设置图表标题
plt.xlabel('高频词')  # 设置x轴标签
plt.ylabel('出现次数')  # 设置y轴标签
plt.show()  # 显示图表

# 生成词云图
wordcloud = WordCloud(width=800, height=600, background_color='white', font_path='C:\\Windows\\Fonts\\STSONG.TTF').generate((' '.join(w)))  # 使用WordCloud方法，生成词云图，并赋值给变量wordcloud；其中width和height分别指定词云图的宽度和高度，background_color指定背景颜色，font_path指定字体文件路径，' '.join(wo)将w列表中的元素用空格连接成一个字符串
plt.imshow(wordcloud, interpolation='bilinear')  # 显示词云图
plt.axis('off')  # 隐藏坐标轴
plt.show()  # 显示图表

效果

在这里插入图片描述

总结

中间遇到了三个问题：

是分词，最开始不知道该怎么分，想着去掉所有的标点符号，直接统计字数出现的频率。
是条形图标题出现中文乱码，通过百度得到了在绘图时指定支持中文字符集的字体，例如SimHei、Microsoft YaHei等。具体的方法是在绘图代码中添加以下两行代码：

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体为SimHei
plt.rcParams['axes.unicode_minus'] = False  # 解决负号'-'显示为方块的问题

词云图乱码，这个找了好久，最后得到结果：WordCloud库默认使用的是英文字体，如果要在生成词云图时使用中文字体，需要通过设置字体参数来解决中文乱码问题。可以使用 font_path 参数来指定中文字体的路径，在 Windows 操作系统中，字体文件通常存储在以下文件夹中：

C:\Windows\Fonts

青衫木马牛

关注

3
点赞
踩
32

收藏

觉得还不错? 一键收藏
打赏
3
评论
python统计三国高频词，画条形图，绘词云图

记录一次期末作业，要求：1、统计三国演义（下卷）前十的高频词，含出现次数。2、根据上题结果，绘制高频词出现次数的条形图。3、生成三国演义（下卷）词云图是分词，最开始不知道该怎么分，想着去掉所有的标点符号，直接统计字数出现的频率。是条形图标题出现中文乱码，通过百度得到了在绘图时指定支持中文字符集的字体，例如SimHei、Microsoft YaHei等。
复制链接

扫一扫