点击蓝字“python教程”关注我们哟!
之前打算爬取一个图片资源网站,但是在翻页时发现它的url并没有改变,无法简单的通过request.get()访问其他页面。据搜索资料,了解到这些网站是通过ajax动态加载技术实现。即可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
这样的设置无疑给初期爬虫新手制造了一些困难。
1、什么是ajax
几个常见的用到ajax的场景。
比如你在逛知乎,你没有刷新过网页,但是你却能看到你关注的用户或者话题有了新动态的消息提示。
还比如,我们在看视频时,可以看到下面的评论没有完全全部加载出来,而是你向下拖动一点,它给你加载一点。
从上述场景你应该也可以发现它的优点:
方便与用户的交互,不用重新加载整个网页,就可以实现刷新,不用中断用户的行为。你正在看程序员如何找对象呢,此时来个消息推送,整个网页被刷新了,你说你气不气!
还是你在看程序员如何找对象,但是此时通信状况不好啊。回答加载不出来,页面就空白的卡那了,回答加载不出来,你说急不急!那这样咯,先给你看几个回答,在你看的时候我再悄悄的加载其它的数据,那不就解决了吗?就跟吃饭一个道理,你点了一桌子菜,难道菜全做好了再给你上吗?肯定不会的呀,做好一道上一道嘛,对不对。

本文介绍了如何应对URL不变的翻页问题,讲解了AJAX技术的基本概念,并提供了解决Python爬虫抓取AJAX动态加载网页的方法,通过分析响应请求和模拟参数,使用requests库的POST方法实现翻页。还分享了完整代码示例,用于爬取指定网站的多页内容并下载图片。
最低0.47元/天 解锁文章
3436

被折叠的 条评论
为什么被折叠?



