词频统计分析实例——2023年中央一号文件

文章介绍了如何运用词频统计和jieba分词库解析2023年中央一号文件,通过去除冗余字符并生成词云来展现文件核心内容。此方法便于理解和洞察政策重点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近,2023年的中央一号文件发布,对于这个文本,我们怎么分析呢?词频统计分析不失为一种分析方法,下面是具体的操作。

# main()
def main(filename):
    n = eval(input('please enter a number you want see:'))
    words = get_word(filename)
    word_count(words,n)
    word_cloud(words)


def get_word(filename):
    f = open(filename, 'r', encoding='utf-8')
    txt = f.read()
    import jieba
    f.close()
    word_cut = jieba.lcut(txt)
    return word_cut


def word_count(words,n):
    from collections import Counter  # 以Counter函数计数,代码量更少
    counts = Counter(words)  # 弊端,将括号、标点符号统计其中,需要予以剔除
    for ch in "、。,!“()和的“等”":  # 删除不需要出现的冗余部分
        del counts[ch]
    for word,count in counts.most_common(n):  # counts.most_common函数统计键值对
        print("{0:<15}{1:>5}".format(word, count))


def word_cloud(words):
    del_words = []
    for word in words:
        if len(word) == 1:
            continue
        else:
            del_words.append(word)
    text = ' '.join(del_words)
    from wordcloud import WordCloud
    # import imageio.v2 as imageio
    # mask = imageio.imread()
    wordcloud = WordCloud(
        background_color='white',
        width=800,
        height=800,
        max_words=200,
        max_font_size=100,
        font_path='msyh.ttc'
    ).generate(text)
    # wordcloud.to_file(r'D:\Pycharm\PythonProject\Examples\Material\png\中央一号文件词云.png')
    # pic = wordcloud.to_image()  # 保存为一张图片
    # pic.show()  # 展示这张图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

西西弗斯推石头

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值