Scrapy使用隧道代理403问题解决方案

K哥爬虫

于 2021-02-03 17:09:56 发布

阅读量9.2w

点赞数 6

分类专栏： # 快代理使用常见问题

本文链接：https://blog.csdn.net/kdl_csdn/article/details/113611723

版权

快代理使用常见问题专栏收录该内容

6 篇文章

订阅专栏

本文探讨了使用Scrapy爬虫结合隧道代理爬取豆瓣书籍数据时遇到的问题，包括403状态码及反爬机制。分析了隧道代理的工作原理，并通过实验证明代理有效切换，最终确定问题在于Scrapy的连接复用机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

scrapy使用隧道代理不换IP

客户现象
快代理隧道代理客户反馈使用隧道代理没有换IP，原因是使用了隧道代理但是目标网站还是403，跳验证码屏蔽等等，用户推断隧道没有更换代理IP

反爬研究
询问用户访问的网站是https://book.douban.com/，豆瓣读书
https://book.douban.com/subject/35313246/?icn=index-latestbook-subject，35313246应该为book的id，需要访问那本书直接更换id即可

自己编写一个scrapy项目，不使用代理访问200个图书页面，发现前期响应状态为200，即可以爬取到页面，不一会就会出现大量的403状态码，即被防爬了

此时点开任意一个book页面，跳转https://sec.douban.com/b?r=https%3A%2F%2Fbook.douban.com%2Fsubject%2F35315077%2F%3Ficn%3Dindex-latestbook-subject，显示IP被封，需要登陆豆瓣，可以推断出豆瓣是以IP做爬虫监控的

同时我在用户的请求记录中发现了大量sec.douban.com访问记录，可以推断出用户在使用代理的过程中，大量请求会被ban掉
在这里插入图片描述
于是在scrapy中使用隧道代理，发现前期同样的请求都是200，可以拉下来页面，在爬取了一会后就会出现大量的302，403状态码，基本复现了用户场景

点开跳转的页面https://www.douban.com/misc/sorry?original-url=https%3A%2F%2Fbook.douban.com%2Fsubject%2F35313579%2F%3Ficn%3Dindex-latestbook-subject
在这里插入图片描述
发现同样是反爬的页面，所以问题就来了，为什么使用的隧道代理依然会被反爬？

隧道代理自身问题研究
首先根据用户的猜测，我怀疑有可能是IP重复率问题，即某一段时间集中转发在一个IP上，导致重复率很大，这一点测试得出

对于基础规格1s5次的隧道而言，1分钟内访问隧道的次数为300次，查询一分钟内访问次数在300次的隧道访问记录查看得出规格为1s5次，动态版的隧道在一分钟内访问了298次，其中275次都为不重复的代理IP，及重复率为7%-8%左右，可以说在一分钟内都会分配给不重复的IP

这时有人可能会说五分钟呢？，10分钟内呢？不过我写的scrapy项目中200个请求在一分钟内早已经跑完了，所以采用1分钟是有参考意义的

既然隧道代理每次都是更换了代理IP的，并且重复率完全达不到目标网站触发防爬跳转验证的程度，所以排除隧道本身问题

请求客户端框架研究
首先解析出隧道域名的IP地址

利用wireshark进行抓包 ip.addr 的数据包

继续挂上隧道代理运行请求200次，查看数据包，查看所有的http数据包
在这里插入图片描述

发现发送了起码200个，建立的连接只有是十个左右，200多个请求都只走了十几个连接，导致运行过程中会有403 302跳转登陆等等

之前已经知道了加上Connection: close头就就可以，实际测试确实是每个请求都会建立连接，为什么加close就可以了呢？

Scrapy 是一套基于基于Twisted的异步处理框架，通过查看Twisted源码可以看到

/twisted/web/_newclient.py中

实现的http1.1协议

class HTTP11ClientProtocol中的 _finishResponse_WAITING方法
在这里插入图片描述

如果在connection 显示的指定为close，在结束response后会giveup，当不添加Connection: close这个header是，则默认为keep-alive,走resumeProducing()会将连接给请求的生产者
在这里插入图片描述

通过debug也认证了之前的猜想
在这里插入图片描述

CSDN上有一篇博客记录了这个问题 https://blog.csdn.net/bf96163/article/details/111571803

request.headers['Proxy-Connection'] = "close" request.headers["Connection"] = "close"

博客中提到需要加这两个header，其实不然，通过看源码发现只需要request.headers[‘Connection’] = “close” 就可以了

总结
使用隧道代理要添加header Connection: close （代码样例已经发布）
反爬的可能的原因有很多，需要具体问题具体分析!

获取更多好文章，可以关注~
在这里插入图片描述