反爬虫方法大全

最新推荐文章于 2021-08-18 19:41:11 发布

原创最新推荐文章于 2021-08-18 19:41:11 发布 · 892 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#cookie #ajax #运维

反爬虫同时被 2 个专栏收录

1 篇文章

订阅专栏

爬虫

1 篇文章

订阅专栏

本文深入探讨了网站如何防御爬虫攻击，从封IP、封useragent到使用验证码验证等手段，再到高级的javascript渲染和ajax异步传输，全面解析了反爬虫策略。同时也提到了这些策略对真实用户的影响及成本问题。

反爬虫：

爬虫与反爬虫，这相爱相杀的一对，简直可以写出一部壮观的斗争史。而在大数据时代，数据就是金钱，很多企业都为自己的网站运用了反爬虫机制，防止网页上的数据被爬虫爬走。然而，如果反爬机制过于严格，可能会误伤到真正的用户请求;如果既要和爬虫死磕，又要保证很低的误伤率，那么又会加大研发的成本。

简单低级的爬虫速度快，伪装度低，如果没有反爬机制，它们可以很快的抓取大量数据，甚至因为请求过多，造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢，对服务器造成的负担也相对较小。所以，网站反爬的重点也是那种简单粗暴的爬虫，反爬机制也会允许伪装度高的爬虫，获得数据。毕竟伪装度很高的爬虫与真实用户也就没有太大差别了。

下面请看：反爬虫策略

封IP：网页的运维人员通过分析日志发现最近某一个IP访问量特别特别大，某一段时间内访问了无数次的网页，则运维人员判断此种访问行为并非正常人的行为，于是直接在服务器上封杀了此人IP。
封useragent：很多的爬虫请求头就是默认的一些很明显的爬虫头python-requests/2.18.4，诸如此类，当运维人员发现携带有这类headers的数据包，直接拒绝访问，返回403错误。
封cookies: 服务器对每一个访问网页的人都set-cookie，给其一个cookies，当该cookies访问超过某一个阀值时就BAN掉该cookie，过一段时间再放出来，当然一般爬虫都是不带cookie进行访问的，可是网页上有一部分内容如新浪微博是需要用户登录才能查看更多内容。限制每个每天下载300张。
验证码验证：当某一用户访问次数过多后，就自动让请求跳转到一个验证码页面，只有在输入正确的验证码之后才能继续访问网站。
javascript渲染：网页开发者将重要信息放在网页中但不写入html标签中，而浏览器会自动渲染 <script ) 标签中的js代码将信息展现在浏览器当中，而爬虫是不具备执行js代码的能力，所以无法将js事件产生的信息读取出来。
ajax异步传输：访问网页的时候服务器将网页框架返回给客户端，在与客户端交互的过程中通过异步ajax技术传输数据包到客户端，呈现在网页上，爬虫直接抓取的话信息为空。
页面懒加载
referer字段反爬：请求头字段里需要携带Cookie、User-Agent、Referer等多个字段共同请求才可以获取到图片数据，否则不返回数据。
延时操作：