文本词云可视化的流程主要有:文本获取、词组生成,停用词定义、词云出图。这篇文章将依次介绍
文本获取
文本获取可以通过网页爬虫、自定义文本等方式获得,将文本存放于一个txt文件内方便程序读取文本
词组生成
对于中文文本,主要使用python 中的jieba库进行中文文本分词,jieba库的介绍可见Python jieba中文分词库介绍。
停用词定义
获取到词组之后,经常会有一些我们不需要的词语会出现在词组里面,这里我们可以定义停用词来把它们去除
词云出图
词云出图最普遍使用的是WordCloud 库,wordcloud.WordCloud这个函数就实现了丰富的词云可视化功能。
色带颜色设置可以参考
【收藏】如何优雅的在 Python matplotlib 中可视化矩阵,以及cmap色带设置
示例代码
本示例代码加入了词云可视化中的以下功能
- 图片大小设置
- 透明的背景设置
- 最大的词数量设置
- 停用词设置
- 字体色带设置
- 字体大小设置
- 字体设置</