项目截图
README.txt采集淘宝某一商品评价 (10 分)对抓取数据进行格式清洗,不能包括特殊标点符号,换行符。(10 分)对清洗完的数据进行情感分析,统计出好评,差评,中性评论数,并根据次数绘制出饼形图。(10分)对好评进行文本分析,提取好评关键词,并过滤掉没有意义的词,绘制出好评关键词出现次数的柱状图返回前6个(10分)对好评进行文本分析,提取好评关键词,并过滤掉没有意义的词,绘制出好评,差评的词云图(20 分)
文件标注
商品评论数据采集.py 采集数据情感分析.py 情感分析好评柱状图.py好评词云图.py差评词云图.py注意 不然可视化有问题pip install xlrd==1.2.0
本文爬取的网址:
https://h5.m.taobao.com/app/rate/www/rate-list/index.html?auctionNumId=535461632510
关注点是商品评论数据采集.py采集数据这里
这里是页数 也就是从第几页到第几页(一页 10个评论信息)
需要更换的地方
cookie和token
cookie获取地址:
打开网页
https://h5.m.taobao.com/app/rate/www/rate-list/index.html?auctionNumId=535461632510
进入F12
搜索
https://h5api.m.taobao.com/h5/mtop.taobao.rate.detaillist.get/6.0/?jsv=
复制请求的cookie
token的位置在cookie中
把cookie粘贴进入一个文本
搜索
_m_h5_tk
主要前面这一些 也就是bf6a8cd64e9a23bb5f153d0e0d25b009
就可以跑了
ps:
问题1:
出现:
{'ret': ['FAIL_SYS_USER_VALIDATE', 'RGV587_ERROR::SM::哎哟喂,被挤爆啦,请稍后重试'], 'data': {'url': 'https://h5api.m.taobao.com:443//h5/mtop.taobao.rate.detaillist.get/6.0/_____tmd_____/punish?x5secdata=xd03e3a1669676cce6beb9d44cd4c6a6c09d35ffbcd2f43c341702961689a-717315356a1703520446abbzc3aaa__bx__h5api.m.taobao.com%3A443%2Fh5%2Fmtop.taobao.rate.detaillist.get%2F6.0&x5step=2&action=captcha&pureCaptcha=‘}}
需要刷新页面 过了滑块
代码换新cookie
问题2
出现如下报错是因为token不对 需要更换cookie和token
{'api': 'mtop.taobao.rate.detaillist.get', 'data': {}, 'ret': ['FAIL_SYS_ILLEGAL_ACCESS::非法请求'], 'v': '6.0'}