python爬虫异步加载_Python学习笔记4——爬取异步加载数据

最新推荐文章于 2024-03-24 08:14:14 发布

weixin_39603995

最新推荐文章于 2024-03-24 08:14:14 发布

阅读量987

点赞数

文章标签： python爬虫异步加载

一.什么是异步加载？

在之前的学习笔记中，爬取的网页是需要手动翻页的网址，但是一些网站是通过自动加载翻页的，如knewone网页。浏览knewone的官网就能发现，当下拉到网页最下端时，网站会自动加载新的数据，这样的网站加载方法，称为异步加载。

d3032254687e?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

异步加载又称之为非阻塞模式，当向网页提出请求（request）时，其实网站只是返回了主要样式和部分数据，而持续加载的网页数据是由JS控制，这时新加载出的网页数据与之前的请求是没有关系的，因此称之为异步加载。

二.如何抓取异步加载数据？

以爬取knewone的数据为例，学习连续爬取异步加载网页的方法。

分为以下步骤：

1、观察网页

右键点击网页 —— 点击检查打开监视器 —— 在打开的窗口中选择Network（Network中可查看动态加载数据）—— 选择XHR —— 下拉加载数据，记录数据信息

d3032254687e?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

通过观察可以发现，往下下拉加载的数据越多，动态加载就会陆续出现新的加载成功的页码。点击任意一个新加载的页码，可查询动态加载的数据。点击之后，在新弹出窗口的Headers中，便能找到网页的网址。例如下面的knewone.com网页，新加载的网页在后面添加了page=?的后缀。

最低0.47元/天解锁文章

weixin_39603995

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬虫异步加载_Python学习笔记4——爬取异步加载数据

一.什么是异步加载？在之前的学习笔记中，爬取的网页是需要手动翻页的网址，但是一些网站是通过自动加载翻页的，如knewone网页。浏览knewone的官网就能发现，当下拉到网页最下端时，网站会自动加载新的数据，这样的网站加载方法，称为异步加载。异步加载又称之为非阻塞模式，当向网页提出请求（request）时，其实网站只是返回了主要样式和部分数据，而持续加载的网页数据是由JS控制，这时新加载出的网页数...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。