爬虫总结1——爬取异步请求（XHR/JS）数据方法

最新推荐文章于 2024-05-14 16:29:22 发布

Hi-Cloud

最新推荐文章于 2024-05-14 16:29:22 发布

阅读量2.5w

点赞数 1

分类专栏：爬虫文章标签： Pyspider

本文链接：https://blog.csdn.net/muumian123/article/details/81746855

版权

在爬取到http://icloudy.cechina.cn/网页的时候，发现点击“加载更多”会出现新的内容，但是网页却没有发生变化，于是打开F12查看Network发现，会每次点击都会多出来一行，如下：

随便点开一个就可以看到我们真正访问的URL地址：

从这里我们就可以清楚的在xhr返回的header里面看到异步请求的url，这里我们直接访问该url（或者在preview里面可以看到返回的数据）可以看到返回的数据就是新闻数据，也就是我们要爬的数据。接下来就是进行url格式分析，一般都会有规律可循。具体代码如下：

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }
    
    
    @config(fetch_type="js")
    @every(minutes=24 * 60)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Hi-Cloud

关注关注

1
点赞
踩
24

收藏

觉得还不错? 一键收藏
10
评论
爬虫总结1——爬取异步请求（XHR/JS）数据方法

在爬取到http://icloudy.cechina.cn/网页的时候，发现点击“加载更多”会出现新的内容，但是网页却没有发生变化，于是打开F12查看Network发现，会每次点击都会多出来一行，如下：随便点开一个就可以看到我们真正访问的URL地址：从这里我们就可以清楚的在xhr返回的header里面看到异步请求的url，这里我们直接访问该url（或者在preview里面可以看到返回的...
复制链接

扫一扫