主要应用场景:快速提取用户评论中关注的焦点,直接反应品牌或产品的主观感受,方便市场、运营、产品等相关人员收集市场信息,有针对性的调整或优化产品、策略等。
比如本次练习用到的数据是抓的淘宝一个爆款面膜的部分评论,一眼就能看出消费者关心的是啥,可以直接拖到文末看效果图,是不是很神奇?
本文用到两个第三方库,jieba、wordcloud、numpy,推荐pip方式安装(如命令行下:pip install jieba)。
这里的PIL库单独安装会出问题,传说PIL不支持python3了,网上又说出了个增强版pillow,直接安装依然不行,后来发现PIL已经存在了,不知道啥时候装的,怀疑装wxpython的时候装的。。。。持续怀疑中
import jieba
from wordcloud import WordCloud
from PIL import Image
import numpy as np
# 分别导入模块,注意大小写
wt = jieba.cut(open('data/tb0507mm.txt','r',encoding='utf-8').read(), cut_all=False)
# jieba分词,采取的模式是精准模式,True是全模式
这个地方总是会忘记read(),打开文件之后要读取出来!!!注意编码格式
wt = '/'.join(wt)
中文词意的多样性和复杂性导致我们提取出来的词不一定都是我们想要