Scrapy 使用代理隧道爬取HTTPS的BUG

最新推荐文章于 2024-05-29 20:15:58 发布

三头六臂的小白

最新推荐文章于 2024-05-29 20:15:58 发布

阅读量3.4k

点赞数 3

分类专栏： python开发文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bf96163/article/details/111571803

版权

python开发专栏收录该内容

39 篇文章 2 订阅

订阅专栏

一两年前的代理都是代理池模式的，每次链接时代理IP是自己控制的，没发现问题

现在用隧道代理，每个TCP在远端分别用不同的IP代理并返回，自己可以通过设置header的部分字段来通知远端隧道更换IP

遇到一个问题，就是我的处理逻辑是爬一段时间，当这个IP被ban掉后换新的IP，但是死活换不了

经过debug和查找代理的相关资料发现要在headers里

request.headers['Proxy-Connection'] = "close"
request.headers["Connection"] = "close"

将这两个字段设置为CLOSE 才能关闭HTTPS

但是设置以后问题依旧，问题表现还是爬到指定数量后无法更换IP

后来发现这个在middleware process_response函数中处理的request实际上还是要跟其他自己生成的request一起放到调度器里

，这里就会用到scrapy自带的去重filter，就是实际上这个request没发出去，直接被scrapy自己过滤掉了。

处理完request后设置这个字段

request.dont_filter = True

就可以不通过过滤器，直接发送请求了。

scrapy的组件比较多，原生的downloadmiddleware很多都默认启用，比如UA cookies 去重filter这类的，自己写middleware时候要注意。

三头六臂的小白

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Scrapy 使用代理隧道爬取HTTPS的BUG

一两年前的代理都是代理池模式的，每次链接时代理IP是自己控制的，没发现问题现在用隧道代理，每个TCP在远端分别用不同的IP代理并返回，自己可以通过设置header的部分字段来通知远端隧道更换IP遇到一个问题，就是我的处理逻辑是爬一段时间，当这个IP被ban掉后换新的IP，但是死活换不了经过debug和查找代理的相关资料发现要在headers里request.headers['Proxy-Connection'] = "close"request.headers["Connection.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。