1、json.loads()解码python json格式
json.load()加载python json格式文件
因此使用requests.get(url)和urllib.urlopen(url)获取内容的方式如下:
2、关于爬取Ajax动态加载(翻页时url不变)的网页+网站
(1)中国票房网,周票房,无论选取哪一周,网址均为http://www.cbooo.cn/movieweek
对于该类网站,需要找出隐藏的真实网址。
XHR:XMLHttpRequest
图中Request URL 即为真实网址,设置不同的sdate参数即可获取不同周的数据。
(2)对于网页中含有下一页的网页数据爬取
一般下一页的url会变化,找出规律构造url即可。爬取多少页就构造几个url,若需要爬取到最后一页,需要设置停止参数,只需观察最后一页和不是最后一页参数的差异找出最后一页的参数。
以淘宝为例,Elements视图下定位第99页和第100页的代码,可以发现参数不一致。