最近各个网站的反爬措施是越来越好了…爬虫也不是那么好做了,原来一直想不使用代理的我也不得不屈服…毕竟一分钟40个页面的频率还要冒着被封ip的风险还是很难受的…
Scrapy无法使用代理的问题
看了网上很多的的推荐我决定使用讯代理的动态转发服务,十万次转发20块,本着试一试的原则我还是咬咬牙(并没有)买了。按照官方的说明在scrapy里边配置好了(不得不说官方的示例代码是真的烂…),直接开始爬取测试,结果怎么爬都爬不出item来了???怎么回事?代理出错了?
在讯代理的控制台看了看转发数量的确没有减少,看来是真的出了问题了。检查过验证字段都没有错之后开始寻找别的原因。在网上发现原来已经有前辈遇到过类似的麻烦了,原来是scrapy的核心代码里边就把代理的认证字段Proxy-Authorization给扔了…这…我服了。具体的操作可以直接看这篇文章。这里就不多说了。