python爬取网页内容_python - 如何爬取URL不变的网站内容

最新推荐文章于 2022-05-10 09:55:41 发布

weixin_39546661

最新推荐文章于 2022-05-10 09:55:41 发布

阅读量814

点赞数

文章标签： python爬取网页内容

问题

function __doPostBack(eventTarget, eventArgument) {

if (!theForm.onsubmit || (theForm.onsubmit() != false)) {

theForm.__EVENTTARGET.value = eventTarget;

theForm.__EVENTARGUMENT.value = eventArgument;

theForm.submit();

}

对于这种翻页方式，怎么用爬虫爬取呢？网站翻页后URL没有发生改变。我之前使用bs4和selenium模拟翻页操作再爬取，可是数据量太大，这种方法速度太慢。80%的时间都浪费在翻页上。

解决方案

这个问题得具体到网址去分析，不同网址会有不同的处理方式。

现在假设在比较常见的情况下，可以用这种方法：

打开浏览器调试模式

点击下一页，查看对应的网络请求的Response，这个响应通常就是下一页的URL

查看该请求的请求头和请求参数，分析找出规律

使用python模拟HTTP请求来批量获得URL

爬取信息，推荐LXML进行HTML解析

至于如何模拟HTTP请求，可参考 python模拟HTTP请求

扫一扫关注IT屋

微信公众号搜索 “ IT屋 ” ，选择关注与百万开发者在一起

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注