python数据挖掘之中文分词和可视化展示(NLP应用初探)

主要应用场景:快速提取用户评论中关注的焦点,直接反应品牌或产品的主观感受,方便市场、运营、产品等相关人员收集市场信息,有针对性的调整或优化产品、策略等。

比如本次练习用到的数据是抓的淘宝一个爆款面膜的部分评论,一眼就能看出消费者关心的是啥,可以直接拖到文末看效果图,是不是很神奇?

本文用到两个第三方库,jieba、wordcloud、numpy,推荐pip方式安装(如命令行下:pip install jieba)。

这里的PIL库单独安装会出问题,传说PIL不支持python3了,网上又说出了个增强版pillow,直接安装依然不行,后来发现PIL已经存在了,不知道啥时候装的,怀疑装wxpython的时候装的。。。。持续怀疑中

import jieba
from wordcloud import WordCloud
from PIL import Image
import numpy as np
# 分别导入模块,注意大小写


wt = jieba.cut(open('data/tb0507mm.txt','r',encoding='utf-8').read(), cut_all=False)
# jieba分词,采取的模式是精准模式,True是全模式

这个地方总是会忘记read(),打开文件之后要读取出来!!!注意编码格式

wt = '/'.join(wt)

中文词意的多样性和复杂性导致我们提取出来的词不一定都是我们想要

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值