爬虫总结1——爬取异步请求(XHR/JS)数据方法

在爬取http://icloudy.cechina.cn/网站时,通过F12 Network观察到‘加载更多’触发了异步请求。分析xhr返回的header找到真实的URL,直接访问得到新闻数据。通过切片提取ID构建每条新闻的完整URL,实现数据爬取。正则表达式匹配方法待优化。
摘要由CSDN通过智能技术生成

在爬取到http://icloudy.cechina.cn/网页的时候,发现点击“加载更多”会出现新的内容,但是网页却没有发生变化,于是打开F12查看Network发现,会每次点击都会多出来一行,如下:

随便点开一个就可以看到我们真正访问的URL地址:

从这里我们就可以清楚的在xhr返回的header里面看到异步请求的url,这里我们直接访问该url(或者在preview里面可以看到返回的数据)可以看到返回的数据就是新闻数据,也就是我们要爬的数据。接下来就是进行url格式分析,一般都会有规律可循。具体代码如下:

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }
    
    
    @config(fetch_type="js")
    @every(minutes=24 * 60)
   
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值