爬虫
Hi-Cloud
这个作者很懒,什么都没留下…
展开
-
爬虫总结1——爬取异步请求(XHR/JS)数据方法
在爬取到http://icloudy.cechina.cn/网页的时候,发现点击“加载更多”会出现新的内容,但是网页却没有发生变化,于是打开F12查看Network发现,会每次点击都会多出来一行,如下:随便点开一个就可以看到我们真正访问的URL地址:从这里我们就可以清楚的在xhr返回的header里面看到异步请求的url,这里我们直接访问该url(或者在preview里面可以看到返回的...原创 2018-08-16 18:52:49 · 25460 阅读 · 10 评论 -
爬虫总结2——解决POST方法翻页及异步请求问题
在爬取http://www.chinaparking.org/news/1-A007--0-1-0-1-0-1这个网站的时候,点击下一页发现是使用POST方式提交的,并且返回了XHR异步请求。如下:查看参数信息如下:多点击几个会发现每次翻页只有pageIndex这个参数会随页数发生变化。具体实现代码如下:from pyspider.libs.base_handler impo...原创 2018-08-16 19:09:05 · 4363 阅读 · 1 评论