摘要这一篇文章简单介绍关于词云(wordcloud)的简单使用. 主要介绍以下生成基本的词云和加上蒙版之后的词云的图片.
简介
这一篇介绍关于词云的生成. 生成的结果如下所示. 会简单介绍一些参考资料和简单的使用方式.
参考链接
简单使用方式介绍
关于字体说明
使用wordcloud可以指定使用的字体, 在windows中, 字体在以下的文件夹中: C:\Windows\Fonts, 可以将其中的字体文件拷贝到当前的文件夹内.
我们指定字体可以使得其能生成中文的词云. 我下面放一张图, 具体生成过程是和下面的方法是一样的.
使用前准备
from os import path
from wordcloud import WordCloud
from PIL import Image
import numpy as np
d = path.dirname(__file__)
# Read the whole text.
text = open(path.join(d, 'constitution.txt'), encoding='utf8').read()
# 导入字体文件
font_path = path.join(d, 'HYC6GFM.TTF')
生成普通的wordcloud
我们可以指定使用的字体, 图像的大小和颜色等.
# 生成普通的wordcloud
wordcloud = WordCloud(font_path=font_path, margin=1, random_state=1, max_words=300, width=1000, height=700, background_color='white').generate(text)
wordcloud.to_file('wordcloud.jpg')
最终的生成效果如下所示:
使用蒙版来生成图片
我们想要使得生成图片能与蒙版相符, 我们使用下面的蒙版(如果想要使用自己的蒙版,可以使用关键词「剪影」或是「轮廓」,这样主要的图像是黑色的,我们主要就是突出一个轮廓):
# 生成带有mask的图片
mask = np.array(Image.open(path.join(d, "62.jpg")))
wordcloud = WordCloud(font_path=font_path, mask=mask, margin=1, random_state=1, background_color='white').generate(text)
wordcloud.to_file('wordcloud_mask.jpg')
最终生成的效果如下所示:
源代码
将上面的测试代码放在了github上, 链接为: wordcloud测试脚本
关于中文文档的词云生成(例子)