python数据挖掘之中文分词和可视化展示（NLP应用初探）

最新推荐文章于 2024-07-29 00:30:41 发布

encen

最新推荐文章于 2024-07-29 00:30:41 发布

阅读量765

点赞数 1

本文链接：https://blog.csdn.net/encen/article/details/90287002

版权

本文介绍了使用Python进行中文数据挖掘，通过jieba进行分词，并结合wordcloud进行可视化展示，以淘宝面膜评论为例，揭示用户关注的焦点。涉及的库包括jieba、wordcloud和numpy，同时讨论了停词库的使用和WordCloud参数的解释。

摘要由CSDN通过智能技术生成

主要应用场景：快速提取用户评论中关注的焦点，直接反应品牌或产品的主观感受，方便市场、运营、产品等相关人员收集市场信息，有针对性的调整或优化产品、策略等。

比如本次练习用到的数据是抓的淘宝一个爆款面膜的部分评论，一眼就能看出消费者关心的是啥，可以直接拖到文末看效果图，是不是很神奇？

本文用到两个第三方库，jieba、wordcloud、numpy，推荐pip方式安装（如命令行下：pip install jieba）。

这里的PIL库单独安装会出问题，传说PIL不支持python3了，网上又说出了个增强版pillow，直接安装依然不行，后来发现PIL已经存在了，不知道啥时候装的，怀疑装wxpython的时候装的。。。。持续怀疑中

import jieba
from wordcloud import WordCloud
from PIL import Image
import numpy as np
# 分别导入模块，注意大小写


wt = jieba.cut(open('data/tb0507mm.txt','r',encoding='utf-8').read(), cut_all=False)
# jieba分词，采取的模式是精准模式，True是全模式

这个地方总是会忘记read()，打开文件之后要读取出来！！！注意编码格式