概述
词云是文本大数据可视化的重要方式,可以将大段文本中的关键语句和词汇高亮展示。本文
本文四行代码教你做出高大上的词云图片,可视化生动直观展示出枯燥文字背后的核心概念。
安装wordcloud: pip install wordcloud
代码及运行示例
import wordcloudw = wordcloud.WordCloud()w.generate('and that government of the people, by the people, for the people, shall not perish from the earth.')w.to_file('output1.png')
总结
以上是最简单的词云生成,我们可以在WordCloud()括号里填入各种参数,控制词云的字体、字号、字的颜色、背景颜色等等。
wordcloud库会非常智能地按空格进行分词及词频统计,出现次数多的词就大。
常用参数
- width 词云图片宽度,默认400像素
- height 词云图片高度 默认200像素
- background_color 词云图片的背景颜色,默认为黑色background_color='white'
- font_step 字号增大的步进间隔 默认1号font_path 指定字体路径 默认None,对于中文可用font_path='msyh.ttc'
- mini_font_size 最小字号 默认4号
- max_font_size 最大字号 根据高度自动调节
- max_words 最大词数 默认200
- stop_words 不显示的单词 stop_words={"python","java"}
- Scale 默认值1。值越大,图像密度越大越清晰
- prefer_horizontal:默认值0.90,浮点数类型。表示在水平如果不合适,就旋转为垂直方向,水平放置的词数占0.9?
- relative_scaling:默认值0.5,浮点型。设定按词频倒序排列,上一个词相对下一位词的大小倍数。有如下取值:“0”表示大小标准只参考频率排名,“1”如果词频是2倍,大小也是2倍
- mask 指定词云形状图片,默认为矩形通过以下代码读入外部词云形状图片(需要先pip install imageio安装imageio)
import imageiomk = imageio.imread("picture.png")w = wordcloud.WordCloud(mask=mk)