首先我们要了解一下,我们用requests包爬取的都只是写在HTML页面上的数据,但是呢,现在很多网站的数据都是通过js代码生成的,除非你找到它,不然是爬取不到的。
首先我随意打开一个京东的商品的详情页面:
然后打开谷歌的调试工具,点开network,京东的商品评论信息是存放json包中的,我们点击JS:
我们发现了productPageComment…,这也太像了吧,点开:
找到他的Request URL,复制下来,打开这个链接:
的确是我们想要的评论信息,下面我们来爬去它,爬去之前,我们要注意,这只是一页信息,那其他页呢,仔细看:
中间有一个page=0,这就是第一页的标志,那page=1就是第二页,page=2就是第三页了吧?试验一下:
打开看,果然是这样。那我们就可以来爬取了!
这里用到三个工具包:requests、json、pandas
可以通过 pip install -U指令来安装,不过国内某些