小白在学习Python基础教程一个月后,决定开始干爬虫。Spider!!!
视频:小蚊子爬虫实战
工具:Pycharm。
1、概述
商品评论数据属于不开放数据接口。不开放数据接口是指公开的网站中,可以获取的数据,但是不公开数据接口。
!公开:
允许公众访问:例如电商商品价格、介绍、评论等;
限制全站抓取:例如限制session、cookie、header等。
2、分析接口案例
目的:抓取《谁说菜鸟不会数据分析》书本的评论数,网址为https://item.jd.com/11944656.html#comment。
下拉评论数:
商品评论有1万+了!看来小蚊子系列还是很吃香啊:)
接下里,按住CTRL+SHIFT+J(注意是谷歌流浪器),得到:
因为是异步加载,点击【network】后先【Clear】,然后点击【All】,并点击网页端【第二页】(这一步主要是异步申请数据)。
点击【All】下方的【Type】,选择Script,然后我们看到: