1. 什么是词云
由词汇组成类似云的彩色图形。
2. 词云的优势
“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
3. 词云的实现
3.1 引入第三方模块:
import jieba 切割中文的模块
from PIL import Image 获取图片的数据信息
from wordcloud import wordcloud 绘制词云的模块
import numpy as np 更高效的数值计算扩展,可用来存储和处理大型矩阵
3.2 处理绘制词云的文本信息:
1). 强调分割中有问题的词;
jieba.suggest_freq(('微博'), True)
2). 切割文本信息;
切割中文:
result = jieba.lcut(text)
3.3 绘制词云:
1). 打开图片,获取图片的数据信息:
imgObj = Image.open('背景图片地址')
img_mask = np.array(imgObj) # 将图片对象转化为矩阵信息
2). 创建词云对象, 设置属性:
wcObj = wordcloud.WordCloud(
mask = img_mask, # 数据如何填充到图片
background_color="white", # 背景颜色,除背景色外的其他颜色部分填充文字
font_path="/usr/share/fonts/