python动态爬虫ajax翻页_爬虫面对JQUERY+AJAX的翻页问题?

本文介绍了作者在解决Python爬虫面对JQUERY+AJAX动态翻页问题时的经验,包括问题归纳、所需工具及解决方法。通过分析网页源码,使用Scrapy、Requests、BeautifulSoup等库,结合请求头、Form Data和Query String Parameter,最终成功实现动态翻页和数据抓取。
摘要由CSDN通过智能技术生成

自答一波:经过了三天的摸索,终于找到了一些眉目,把这几天看来的各家情况和最后尝试出来的方法都放在这里,一方面作为这个问题的一个小结,一方面万一有后来的python小白,如我一样,也算是有个帮助吧。

1. 问题归纳

搜索答案的过程中发现,关于爬虫中网页翻页的问题还是挺多的,各家由于网站数据规范性不一,遇到的问题也略有出入,主要有两大类,还有我遇到的这第三类:

一是,网页静态加载,现象是每次翻页都提供一个新的url地址,在地址中进行NoPage的变化(NoPage仅是一个范例,具体网站的翻页参数需要根据对象网站进行分析),网上提到的此类型网站多使用request.get方法,利用url拼接实现翻页。

二是,网页动态加载,现象是每次翻页url地址不发生变化,作为新手,完全懵bi,不知道背后发生了什么。此类网站就多数使用了jQuery+Ajaxr的动态加载方式,可以使用request.post发送post请求进行翻页,翻页请求的数据往往在formdata中体现。由于本人没有相关理论基础,不知道背后实现的原理,仅把我实现过程中的发现在后面介绍。

还有第三种就是我遇到的这个恶心的网站,首先每次翻页URL地址不发生变化,通过开发工具查看后发现确实使用的是request.post和ajax的动态加载方式,应该是适用上面第二种情况的,用request.post发送formdata就能够实现,但是手动翻了几页后发现,formdata里面的所有参数保持不变,而变化的参数是在Query String Parameter里,就又应该

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值