python爬虫异步加载_Python学习笔记4——爬取异步加载数据

一.什么是异步加载?

在之前的学习笔记中,爬取的网页是需要手动翻页的网址,但是一些网站是通过自动加载翻页的,如knewone网页。浏览knewone的官网就能发现,当下拉到网页最下端时,网站会自动加载新的数据,这样的网站加载方法,称为异步加载。

d3032254687e?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

异步加载又称之为非阻塞模式,当向网页提出请求(request)时,其实网站只是返回了主要样式和部分数据,而持续加载的网页数据是由JS控制,这时新加载出的网页数据与之前的请求是没有关系的,因此称之为异步加载。

二.如何抓取异步加载数据?

以爬取knewone的数据为例,学习连续爬取异步加载网页的方法。

分为以下步骤:

1、观察网页

右键点击网页 —— 点击检查打开监视器 —— 在打开的窗口中选择Network(Network中可查看动态加载数据)—— 选择XHR —— 下拉加载数据,记录数据信息

d3032254687e?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

通过观察可以发现,往下下拉加载的数据越多,动态加载就会陆续出现新的加载成功的页码。点击任意一个新加载的页码,可查询动态加载的数据。点击之后,在新弹出窗口的Headers中,便能找到网页的网址。例如下面的knewone.com网页,新加载的网页在后面添加了page=?的后缀。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值