京东商城的页面不是静态页面,其评论信息存放于json文件中,由ajax控制,所以我们在浏览器上看到的网页源代码和用Python爬下来的是不一样的,所以我们真正要爬取的是评论数据所存放的json文件。
首先打开一个京东商品的评论页面,按F12。然后点击network之后再刷新一次页面,会显示如下信息。
在所有的json文件中找到那个存放评论的文件:
观察其URL,其中有一个参数是page=0,大概这个参数表示第几页评论,那么我们就可以通过修改page参数来获取其他所有页的评论,分析完之后开始编写程序。
首先创造Request对象,然后使用urlopen函数将该文件爬取下来,通过Python中的json库来解析改文件,最后保存到文件中。代码如下:
import urllib.request
import json
import time
import xlwt
#======》爬取评论信息《=======#