第四十三节课:政府工作报告词云生成实例解析

政府工作报告词云生成实例解析

需求背景

面对政府工作报告等长篇政策性文件,我们需要一种直观方式提取核心关键词。词云技术能有效将文本数据可视化,突出高频词汇,快速传递核心信息。

一、实例文件说明

  1. 十九大报告

    • 文件名:新时代中国特色社会主义.txt
    • 核心内容:首次提出新时代中国特色社会主义思想
  2. 2018中央一号文件

    • 文件名:乡村振兴战略意见.txt
    • 核心内容:部署乡村振兴战略实施方案

二、基础词云生成

代码实现步骤

# 导入核心库
import jieba
from wordcloud import WordCloud

# 1. 读取文件内容
with open("新时代中国特色社会主义.txt", "r", encoding="utf-8") as f:
    text = f.read()

# 2. 中文分词处理
word_list = jieba.lcut(text)
processed_text = " ".join(word_list)

# 3. 配置词云参数
wc = WordCloud(
    font_path="msyh.ttc",  # 微软雅黑字体
    width=1000,
    height=700,
    background_color="white",
    max_words=15  # 限制显示词数
)

# 4. 生成并保存词云
wc.generate(processed_text)
wc.to_file("十九大报告词云.png")

效果解析

  • 十九大报告关键词‌:发展、建设、制度、坚持、中国特色
  • 乡村振兴文件关键词‌:农村、农业、振兴、体系、服务
  • 通过max_words=15参数可聚焦核心词汇

三、进阶形状控制

  • 五角星形词云生成
from PIL import Image
import numpy as np

# 1. 加载形状蒙版
mask = np.array(Image.open("five_star.png"))  # 五角星形状图片

# 2. 配置形状参数
wc = WordCloud(
    mask=mask,  # 添加形状控制
    font_path="msyh.ttc",
    background_color="white"
)

生成效果对比

| 标准形状 | 五角星形状 |

在这里插入图片描述

在这里插入图片描述

四、扩展应用方向

  1. 个性化定制

    • 使用个人头像/LOGO作为形状模板
    • 自定义配色方案(修改colormap参数)
  2. 多场景应用

    • 分析政府工作报告年度变化
    • 可视化小说人物关系
    • 新闻热点分析(中英文皆可)
  3. 参数优化建议

    WordCloud(
        collocations=False,  # 禁用词组统计
        prefer_horizontal=0.8,  # 调整横排比例
        contour_width=2,  # 添加形状边框
    )
    
    

五、技术要点总结

中文处理必须使用jieba分词
字体文件需包含中文字符集
形状控制图片建议使用黑白分明的高对比图
通过stopwords参数可过滤无效词汇

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

monday_CN

72小时打磨,值得1元认可

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值