第四十三节课：政府工作报告词云生成实例解析

monday_CN

已于 2025-04-15 09:39:55 修改

阅读量267

点赞数 5

分类专栏： python 文章标签： python

于 2025-04-10 16:29:50 首次发布

本文链接：https://blog.csdn.net/omonday1234/article/details/147121974

版权

python 专栏收录该内容

56 篇文章

订阅专栏

政府工作报告词云生成实例解析

需求背景

面对政府工作报告等长篇政策性文件，我们需要一种直观方式提取核心关键词。词云技术能有效将文本数据可视化，突出高频词汇，快速传递核心信息。

一、实例文件说明

‌十九大报告‌
- 文件名：新时代中国特色社会主义.txt
- 核心内容：首次提出新时代中国特色社会主义思想
‌2018中央一号文件‌
- 文件名：乡村振兴战略意见.txt
- 核心内容：部署乡村振兴战略实施方案

二、基础词云生成

代码实现步骤

# 导入核心库
import jieba
from wordcloud import WordCloud

# 1. 读取文件内容
with open("新时代中国特色社会主义.txt", "r", encoding="utf-8") as f:
    text = f.read()

# 2. 中文分词处理
word_list = jieba.lcut(text)
processed_text = " ".join(word_list)

# 3. 配置词云参数
wc = WordCloud(
    font_path="msyh.ttc",  # 微软雅黑字体
    width=1000,
    height=700,
    background_color="white",
    max_words=15  # 限制显示词数
)

# 4. 生成并保存词云
wc.generate(processed_text)
wc.to_file("十九大报告词云.png")

效果解析

十九大报告关键词‌：发展、建设、制度、坚持、中国特色
乡村振兴文件关键词‌：农村、农业、振兴、体系、服务
通过max_words=15参数可聚焦核心词汇

三、进阶形状控制

五角星形词云生成

from PIL import Image
import numpy as np

# 1. 加载形状蒙版
mask = np.array(Image.open("five_star.png"))  # 五角星形状图片

# 2. 配置形状参数
wc = WordCloud(
    mask=mask,  # 添加形状控制
    font_path="msyh.ttc",
    background_color="white"
)

生成效果对比

| 标准形状 | 五角星形状 |

在这里插入图片描述

四、扩展应用方向

‌个性化定制‌
- 使用个人头像/LOGO作为形状模板
- 自定义配色方案（修改colormap参数）
‌多场景应用‌
- 分析政府工作报告年度变化
- 可视化小说人物关系
- 新闻热点分析（中英文皆可）

‌参数优化建议‌

WordCloud(
    collocations=False,  # 禁用词组统计
    prefer_horizontal=0.8,  # 调整横排比例
    contour_width=2,  # 添加形状边框
)

五、技术要点总结

中文处理必须使用jieba分词
字体文件需包含中文字符集
形状控制图片建议使用黑白分明的高对比图
通过stopwords参数可过滤无效词汇