爬虫是怎么炼成的

清纯玉面可爱小郎君

于 2017-04-19 14:47:10 发布

阅读量556

点赞数

分类专栏：爬虫文章标签：爬虫

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

感谢黄大大的无私分享（尊重原创）

防爬的一些机制，以及对应的破解之道

在这里再说一些玩爬虫时，会遇到的一些常见的防爬手段，以及对应的破解之道。

由于俺不是专业的爬虫，所以这部分这么完善的东西显然不是出自我之手，是我团队里爬虫大神在内部技术分享时总结的，俺只是个搬运工。

第一种，伪装成合法的浏览器

在一般情况下，我们会对请求头进行伪装，最重点的key就是user-agent，这部分信息就是浏览器的内核信息。

由于很多公司，甚至是大楼都是用同一个对外IP，所以单纯的使用频度进行防爬封锁，这种情况很容易造成误杀，这也是目标网站不愿意看到的情况。

但是这种情况下，一般不同的电脑其浏览器是不同的，包括内核版本等等，防爬时会分析这个user-agent是不是一样的，或者说非法的字符。

因为很多爬虫框架，或者进程方位URL时会有默认的标志，通过分析这个频度可以明显知道是不是机器在访问页面。

所以，我们通常会获取一批正常的user-agent做随机封装，去获取数据，这种措施会导致上面说的那种防爬机制时效。

第二种，IP频度封锁

在一个IP过于频繁的访问页面时，网站根据一定的判定策略，会判断这个IP是非法的机器，进行IP封锁，导致这个IP无法访问目标页面。

这个时候，我们可以控制访问频度避免被封，但很多时候我们爬取的量很大，控制频度很难完成任务，那么我们就需要使用代理池来做了。

通过代理池的IP，进行IP伪装，这样就破解了频度的控制。

通常代理池分免费与收费，一般免费的代理池都是被人用烂了的，里头的IP都是在各大主流网站的黑名单里。

最后，至于说每个网站的频度是什么样子的，以及控制力度(禁封几分钟，或者是一天等等)，就需要自己多测试尝试了。

第三种，用户验证机制

用户验证，这是个很常见的东西，很多页面只有用户登录之后可以访问。

一般通常的做法都是cookie验证，所以，关键是我们如何获取这个cookie。

一次性爬取比较容易，直接把cookie帖进去，做访问即可，但是遇到自动化的时候，我们就需要研究用户登录的过程了，使用POST做表单提交，获取cookie，后面的流程就通啦。

第四种，验证码

很多操作是需要验证码才能下一步操作的，这个时候除了破解验证码无法可破。

不错对于简单的验证码，或者说自己技术犀利的话，写个图像识别的东东，做图像识别，识别验证码也行，但是，目前验证码设计的都很变态，详情参考12306，所以这个方法打折的厉害。

还有一种手段，购买付费的打码平台服务，直接完破之，就是费钱而已。

第五种，动态页面

所谓动态页面，即很多时候数据是通过js动态加载出来的，或者JS加密的，这个时候，直接访问是拿不到数据。

也有破解之道，使用JS引擎做JS解析，目前不管是Python的还是Java的，有不少这种引擎可以供调用。

最后一种方法，使用浏览器内核去访问这个链接，就跟真正的浏览器访问页面没有什么差别啦，Java中经典的selenium就是其中一种。

据闻，技术高端点的公司还有更变态的，通过机器学习来学习真实用户的访问轨迹，通过算法来判断这种访问轨迹是否是机器造成的，然后再做判断是否做禁封。

好吧，玩高深的爬虫，其实就一部防爬与反爬的斗争史，其乐无穷。

清纯玉面可爱小郎君

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。