python制作词云图

最新推荐文章于 2023-05-17 13:59:09 发布

JECK_ケーキ

最新推荐文章于 2023-05-17 13:59:09 发布

阅读量374

点赞数

分类专栏： python 词云图 nlp 文章标签：数据分析 python

本文链接：https://blog.csdn.net/weixin_40340586/article/details/111190718

版权

python 同时被 3 个专栏收录

87 篇文章 3 订阅

订阅专栏

词云图

4 篇文章 0 订阅

订阅专栏

nlp

2 篇文章 0 订阅

订阅专栏

这篇博客介绍了如何使用jieba分词库和wordcloud库生成中文词云图。作者提供了完整的Python代码示例，包括设置字体路径、停用词列表、切词和过滤过程，以及最终生成词云图的步骤。代码中强调了处理中文字符编码和停用词的重要性，并展示了如何筛选长度大于2的词进行统计和展示。

摘要由CSDN通过智能技术生成

之前一直做词云图，没有总结，今天重新做了一遍，代码放上，免得以后找不到。

import pandas as pd
import numpy as np
import re
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import os
import jieba
from collections import Counter

#必须指定字符位置，否则乱码
fontpath = 'C:\\Windows\\Fonts\\simhei.ttf'
#中文的一些标点也要放进停词表里，如果还有想剔除的词，也可以放在extend里面。
stopwords = [line.strip() for line in open('stopwords_cn.txt',encoding='UTF-8').readlines()]
stopwords.extend(["，", "。", "！", "？", "、","（", "）", "："])
##这里要切词的是一个Series，所以先切每一个，然后把切完的用extend，放进总的列表seg_list
#切分词的材料是post_content。我自己的数据。
seg_list = []
for cont in post_content:
    seg = jieba.cut(cont, cut_all=False)
    cut_list =[]
    for s in seg:
        # print(s)
        if s in stopwords:
            pass
        else:
            cut_list.append(s)
    seg_list.extend(cut_list)
# seg_list

c = Counter(seg_list)
# c.most_common(50)
#发现有很多字符只有一个，这里重新建一个列表，保存长度超过2的词
seg_list2 = []
for seg in seg_list:
    if len(seg) >= 2:
        seg_list2.append(seg)
    else:
        pass

c2 = Counter(seg_list2)
c2.most_common(50)

type(c2_200[1]) #是一个由元组组成的列表。

wc = WordCloud()

#个人觉得如果统计词频的话，干脆用generate_from_frequencies，这样比较省事。
wc.generate_from_frequencies(dict(c2.most_common(50)))
wc.background_color = "white"
wc.font_path = fontpath
#######这里要使用 imshow(wc)才能显示图像。
plt.imshow(wc)
##设置坐标刻度不显示
plt.xticks([])
plt.yticks([])
plt.tight_layout()

JECK_ケーキ

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
python制作词云图

之前一直做词云图，没有总结，今天重新做了一遍，代码放上，免得以后找不到。import pandas as pdimport numpy as npimport reimport matplotlib.pyplot as pltfrom wordcloud import WordCloudimport osimport jiebafrom collections import Counter#必须指定字符位置，否则乱码fontpath = 'C:\\Windows\\Fonts\\sim
复制链接

扫一扫

专栏目录