词云【介绍】:
又称文字云,是文本数据的视觉表示,由词汇组成类似云的彩色图形,用于展示大量文本数据。通常用于描述网站上的关键字元数据(标签),或可视化自由格式文本。 每个词的重要性以字体大小或颜色显示。 词云的作用:
- 快速感知最突出的文字
- 快速定位按字母顺序排列的文字中相对突出的部分
使用:根据爬取的“喵の鍋日式小火锅”店铺的大众点评的评论(https://my.oschina.net/pansy0425/blog/3031041),对其进行简单的词云展示,提取该店铺的关键词!
from wordcloud import WordCloud from PIL import Image import matplotlib.pyplot as plt import numpy as np def draw_wordcloud(path): bg_mask = np.array(Image.open('bg.jpg')) text = open(path, encoding='utf-8').read() #此时text就是所有的文本 my_wordcloud = WordCloud(background_color='black', # 设置背景颜色 mask=bg_mask, # 设置背景图片 max_words=800, # 设置最大显示的字数 font_path=r'C:\Windows\Fonts\STZHONGS.TTF', # 设置中文字体,使的词云可以显示 max_font_size=250, # 设置最大字体大小 random_state=30, # 设置有多少种随机生成状态, 即有多少种配色方案 ) myword = my_wordcloud.generate(text) plt.imshow(myword) plt.axis('off') plt.show() draw_wordcloud('comment.txt')
结果展示:
关键词:(1)环境【我和闺蜜去过一次,那边的环境是真的很赞!!!】
(2)金遇锅底【我的天,真的是很好吃!!!酸辣口!!!让你欲罢不能!!!】
(3)福袋【一直就很爱吃福袋的我!这家的也超级赞】
(4)其余关键词:服务、杏仁豆腐等也都是这家店的特色,很喜欢这家店啦~~~
------------------------------------------华丽的分割线-------------------------------------------
注:上述中使用的bg.jpg为下图