词频统计分析实例——2023年中央一号文件

西西弗斯推石头

已于 2023-03-06 17:01:40 修改

阅读量428

点赞数

分类专栏： Python学习经典案例集合文章标签： python

于 2023-02-20 11:33:50 首次发布

本文链接：https://blog.csdn.net/m0_58960107/article/details/129121117

版权

Python学习经典案例集合专栏收录该内容

4 篇文章

订阅专栏

文章介绍了如何运用词频统计和jieba分词库解析2023年中央一号文件，通过去除冗余字符并生成词云来展现文件核心内容。此方法便于理解和洞察政策重点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近，2023年的中央一号文件发布，对于这个文本，我们怎么分析呢？词频统计分析不失为一种分析方法，下面是具体的操作。

# main()
def main(filename):
    n = eval(input('please enter a number you want see:'))
    words = get_word(filename)
    word_count(words,n)
    word_cloud(words)


def get_word(filename):
    f = open(filename, 'r', encoding='utf-8')
    txt = f.read()
    import jieba
    f.close()
    word_cut = jieba.lcut(txt)
    return word_cut


def word_count(words,n):
    from collections import Counter  # 以Counter函数计数，代码量更少
    counts = Counter(words)  # 弊端，将括号、标点符号统计其中，需要予以剔除
    for ch in "、。，！“（）和的“等”":  # 删除不需要出现的冗余部分
        del counts[ch]
    for word,count in counts.most_common(n):  # counts.most_common函数统计键值对
        print("{0:<15}{1:>5}".format(word, count))


def word_cloud(words):
    del_words = []
    for word in words:
        if len(word) == 1:
            continue
        else:
            del_words.append(word)
    text = ' '.join(del_words)
    from wordcloud import WordCloud
    # import imageio.v2 as imageio
    # mask = imageio.imread()
    wordcloud = WordCloud(
        background_color='white',
        width=800,
        height=800,
        max_words=200,
        max_font_size=100,
        font_path='msyh.ttc'
    ).generate(text)
    # wordcloud.to_file(r'D:\Pycharm\PythonProject\Examples\Material\png\中央一号文件词云.png')
    # pic = wordcloud.to_image()  # 保存为一张图片
    # pic.show()  # 展示这张图片