天猫评论爬取系列之Bra特别篇

本文介绍了如何爬取天猫商品评论,清洗数据并进行词云与可视化图表生成,通过分析评论数据,揭示了肤色与特定尺寸商品的销售趋势。
摘要由CSDN通过智能技术生成

天猫评论爬取系列之Bra特别篇(钢铁直男勿进)

封面图镇楼~

这里写图片描述

1 前言

1.1 目的

爬虫真是好玩:)
在一个阳光明媚的中午,刚吃完饭的我坐在电脑桌前,翻着手机,忽然看到这样一条微信公众号推送(图是后来截的):
这里写图片描述
嗯~ o( ̄▽ ̄)o,又可以涨知识了,开干吧(只看分析请跳到最后)。

1.2 相关工具

Chrome:抓包、浏览器
scrapy:爬虫框架
mysql:数据储存
WordCloud:词云工具
echarts:可视化工具


2 分析

2.1 思路分析

  1. 爬取评论信息
  2. 评论清洗入库
  3. 生成词云,查看关键词
  4. 生成可视化图表
  5. 数据分析

2.2 爬取评论信息&评论清洗入库

  • 首先Chrome打开商品页面,拖到底下评论区,可以看到评论选择有这几种:全部、追评、图片、有无内容、按默认、按时间等等,这个对下面参数理解有帮助。
    这里写图片描述
    这里写图片描述
  • 接着,打开Chrome的开发者工具(F12),进入Network页面,这时返回去刚刚评论,随便选择一个选项,比如默认是选择全部,我这里改成追评,这时可以看到Network底下加载了很多内容。
    这里写图片描述
  • 一般如果返回Json内容的话是在Network底下的XHR标签,不过天猫评论返回的是JS文件,因为这个涉及到浏览器的同源政策,有兴趣的小伙伴搜索同源和Jsonp相关关键词。好了,言归正传,点击JS标签,看到像https://rate.tmall.com......的内容了么,没有的话再点击一下页面的全部追评图片等等再看。
    这里写图片描述
  • 点击https://rate.tmall.com......,选择Response,可以看到我们要的结果就在这里:
    这里写图片描述
  • 点击Headers,开始分析参数吧:
    这里写图片描述
  • 可以看到是GET方法,Request URL这么长,第一次看到肯定会发懵吧,不过这里面的一些信息其实是可以剔除而不影响我们要的最终内容。比如ua,记录user-agent信息,可以去掉,另外,大部分没有值的代表这个值不传也可以获得我们要的信息,所以又可以省略掉,剩下几个有值的我们就要去猜它代表的意思了。
https://rate.tmall.com/list_detail_rate.htm?itemId=547746378793&spuId=687158212&sellerId=2917184910&order=3&currentPage=1&append=1&content=1&picture=0&needFold=0&_ksTS=1524225058166_2084&callback=jsonp2085

itemIdspuIdsellerId:商品本身的信息;
order:3代表按默认,1代表按时间;
currentPage:评论当前页(1-99);
append:1代表追评,0代表无追评;
content:1代表有内容,0代表无内容;
picture:1代表有图,0代表无图;
needFold:1代表有折叠,0代表无折叠(折叠代表内容看上去没什么意义那种,比如啊啊啊啊啊,啦啦啦啦啦这种);
_ksTS:代表当前时间;
callback:代表返回的函数名(jsonp),支持自定义;

  • 构造_ksTS的函数如下:
        self.time = time.time() * 1000
        self.time = str(self.time).replace('.', 
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值