政府工作报告词云生成实例解析
需求背景
面对政府工作报告等长篇政策性文件,我们需要一种直观方式提取核心关键词。词云技术能有效将文本数据可视化,突出高频词汇,快速传递核心信息。
一、实例文件说明
-
十九大报告
- 文件名:新时代中国特色社会主义.txt
- 核心内容:首次提出新时代中国特色社会主义思想
-
2018中央一号文件
- 文件名:乡村振兴战略意见.txt
- 核心内容:部署乡村振兴战略实施方案
二、基础词云生成
代码实现步骤
# 导入核心库
import jieba
from wordcloud import WordCloud
# 1. 读取文件内容
with open("新时代中国特色社会主义.txt", "r", encoding="utf-8") as f:
text = f.read()
# 2. 中文分词处理
word_list = jieba.lcut(text)
processed_text = " ".join(word_list)
# 3. 配置词云参数
wc = WordCloud(
font_path="msyh.ttc", # 微软雅黑字体
width=1000,
height=700,
background_color="white",
max_words=15 # 限制显示词数
)
# 4. 生成并保存词云
wc.generate(processed_text)
wc.to_file("十九大报告词云.png")
效果解析
- 十九大报告关键词:发展、建设、制度、坚持、中国特色
- 乡村振兴文件关键词:农村、农业、振兴、体系、服务
- 通过max_words=15参数可聚焦核心词汇
三、进阶形状控制
- 五角星形词云生成
from PIL import Image
import numpy as np
# 1. 加载形状蒙版
mask = np.array(Image.open("five_star.png")) # 五角星形状图片
# 2. 配置形状参数
wc = WordCloud(
mask=mask, # 添加形状控制
font_path="msyh.ttc",
background_color="white"
)
生成效果对比
| 标准形状 | 五角星形状 |
四、扩展应用方向
-
个性化定制
- 使用个人头像/LOGO作为形状模板
- 自定义配色方案(修改
colormap
参数)
-
多场景应用
- 分析政府工作报告年度变化
- 可视化小说人物关系
- 新闻热点分析(中英文皆可)
-
参数优化建议
WordCloud( collocations=False, # 禁用词组统计 prefer_horizontal=0.8, # 调整横排比例 contour_width=2, # 添加形状边框 )
五、技术要点总结
中文处理必须使用jieba分词
字体文件需包含中文字符集
形状控制图片建议使用黑白分明的高对比图
通过stopwords参数可过滤无效词汇