使用了爬虫http代理仍然爬不到数据?

198 篇文章 0 订阅
189 篇文章 0 订阅

爬虫用代理IP之后为什么还遇到问题?很多朋友在使用了海量定制代理IP、控制了访问速度和次数、设置了UserAgent、Referer等一系列方式的情况下,发现爬虫工作还是会遇到各种不好的情况,导致爬虫工作总是不那么顺利的进行,无法高效的爬取大量数据,按时完成每天的工作任务,问题出在哪里呢,有什么好的解决办法呢?

每个网站反扒策略不一样,所以需要具体问题具体分析。不过有些基本的操作还是要做好的,如下几点:
1 使用爬虫代理加强版代理IP
2 设置好header信息,不仅仅是UserAgent、Referer这两个,还有很多其它的header值
3 处理好Cookie
4 如果通过header和cookie还不能爬到数据,那么可以考虑模拟浏览器采集,常见的技术是PhantomJS
5 使用了爬虫代理加强版采集数据返回200但是没返回数据,说明爬虫被反爬了 ,做好爬虫优化策略

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值