一、词云简介
词云,也称为文本云或标签云。在词云图片中,关键词在文本中出现的次数越多,则表示该词越重要,其在词云中所占面积区域也越大,出现次数越少,所占面积越小。词云可任意更换背景为白色的图形以改变词云形状。
二、WordCloud原理简介
wordcloud的原理比较好理解,大致为:
- 首先对文本数据进行分词,使用process_text()方法
- 接着计算每个词在文本中的出现频率,生成一个字典。词频用于确定一个词的重要性,即词云文件中词语的显示大小。
- 然后根据词频的数值按比例生成一个图片的布局,类IntegralOccupancyMap 是该词云的数据可视化方式的核心。生成词的颜色、位置、方向等。
- 最后将词按对应的词频在词云画布上生成图片,核心方法是generate_from_frequencies,不论是generate()还是generate_from_text()都最终用到generate_from_frequencies
- 完成词云上各词的着色,默认是随机着色,通过调用to_file()完成词云文件的保存。
参考:https://www.cnblogs.com/jasonhaven/p/7596799.html?ivk_sa=1024320u
三、WordCloud参数
font_path | 字体路径 | string,如font_path='msyh.ttc' |
mask | 绘制的词云形状 | nd-array/None,default=None,如果参数为空,则使用二维遮罩绘制词云。如果 mask 非空 |