爬取翻页URL不变的网站

在爬取一个翻页URL不变的网站时,发现页面通过POST数据进行翻页。通过分析网页源代码、使用开发者工具及Fiddler,揭示了__VIEWSTATE和__EVENTVALIDATION等参数的变化规律,最终成功编写出爬虫代码,实现了数据抓取。
摘要由CSDN通过智能技术生成

今天爬取一个网站时发现翻页URL不变,估计是做了重定向,不过没关系,再艰难的网站也能爬下来。

刚开始没什么思路,查看了网页的源代码,发现它的翻页是通过JS控制的,不像一些普通网站直接把下一页的URI写在当前页面中,后来想到这种情况有可能是通过XHR传数据实现的,于是打开开发者工具,发现压根就没有用到这种技术,但我却有别的收获——我发现主页面POST了很多数据,原来是通过这种方式,于是我开始研究这些数据的来源。

这个网站的URL是:http://ris.szpl.gov.cn/bol/index.aspx,这是政府的网站,所以各位在爬取时不要太过频繁,只当练手即可。

注意!POST的数据只有翻页后才能看到。

通过开发者工具可以看到它POST了很多数据,请看下图(右击图片,选择“在新标签页中打开图片”可查看大图):

132932_Wj8c_3263701.png

多翻几次页可发现这几个值的变化规律如下:

“__EVENTTARGET”的值保持不变,一直都是“AspNetPager1”。

“__EV

  • 3
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值