【爬虫学习3】Python爬取动态页面思路（一）

最新推荐文章于 2024-07-30 15:54:01 发布

EmpGro

最新推荐文章于 2024-07-30 15:54:01 发布

阅读量3.9k

点赞数 1

分类专栏： ======python====== 网络爬虫文章标签： python 爬虫动态页面

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linangfs/article/details/78251828

版权

本文介绍了如何使用Python爬取使用ajax异步加载的动态页面内容，通过分析果壳网-科学人的分页数据包，揭示了通过调整limit和offset参数来获取大量异步数据的方法，并提供了使用json模块解析和保存数据的关键点。

摘要由CSDN通过智能技术生成

ajax异步加载动态内容爬虫

之前在爬取知乎timeline内容时，因为动态加载只爬取到了少量内容，于是研究了下对动态加载页面的爬取。
这篇文章主要是对非加密的ajax异步加载内容的爬取，顺便加入了一些json的知识。
然鹅很不幸知乎是加密的，所以这个办法并不能解决问题。
计划试试selenium+PhantomJS来解决知乎的问题，这个就看下一篇文章了。
全部代码见于我的GitHub页面

原料

chrome浏览器
果壳网-科学人页面
代码

找到异步数据在哪

1.进入果壳网-科学人分页

2.F12打开“审查元素”选则Network窗格并刷新页面以抓包

3.在页面上滑动鼠标滚轮使页面向下
此时可以看到页面是动态加载的
相应的在监控窗口可以看到有数据收发࿰

最低0.47元/天解锁文章

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。