这可能是最全的反爬虫及应对方案，再也不怕爬不到数据了

qfxietian

于 2022-05-26 17:55:03 发布

阅读量6.8k

点赞数 10

分类专栏：千锋宋宋老师-Python学习专栏 Python 爬虫文章标签：爬虫搜索引擎宋宋老师Python专栏

本文链接：https://blog.csdn.net/qfxietian/article/details/124989524

版权

本文详细介绍了网络反爬虫的原理、原因、针对的爬虫类型以及常见的反爬虫手段，包括身份识别、行为分析和数据加密。同时，讨论了编写爬虫的基本步骤和高级技巧，如分布式爬虫和模拟JavaScript。最后，提出了成本和收益的边际效应，为应对反爬虫提供了思考方向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、什么是反爬虫

网络爬虫，是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。但是当网络爬虫被滥用后，互联网上就出现太多同质的东西，原创得不到保护。于是，很多网站开始反网络爬虫,想方设法保护自己的内容。

他们根据ip访问频率，浏览网页速度，账户登录，输入验证码，flash封装，ajax混淆，js加密，图片，css混淆等五花八门的技术，来对反网络爬虫。

防的一方不惜工本，迫使抓的一方在考虑成本效益后放弃,抓的一方不惜工本，防的一方在考虑用户流失后放弃. 【百度百科】

二、反爬虫的原因

1. 爬虫占总PV（PV是指页面的访问次数，每打开或刷新一次页面，就算做一个pv）比例较高，服务器的压力上升，能力下降。

2018年2月24日晚，卓见云某客户网站公网出流量突然爆发性增长，导致带宽被占满，事故发现后紧急提升了SLB的带宽，但提升后的带宽仍然被流量占满（原带宽15M，提升至35M）。由于事故发生在非黄金访问时段，正常流量不会这么大，加上其他现象，怀疑是遭到了网络攻击。

再比如某节某动为了快速发展搜索业务派出爬虫四处暴力抓取网站内容，部分配置较低的网站已经直接瘫痪，给中小网站主们造成了很大的损失和困扰，严重影响了网站正常的用户访问。

某中小网站今年7月份，他突然发现公司的网站经常性打不开，网页加载极其缓慢，有时甚至直接瘫痪。经过一系列排查后，在服务器日志上发现了bytespider爬虫的痕迹。该爬虫抓取的频率每天达几百万次，高则上千万次，服务器带宽负载飙至100%，而且该爬虫在抓取时完全不遵守网站的robots协议。

有小网站主抱怨表示：某节某动的爬虫“一上午对网站发出46万次请求”，网站都瘫痪了，度娘也没有这么折腾的！

可能原因分析：

1) 商业对手，出于竞争需要，采用爬虫获取信息。

2) 搜素引擎抽风。

3)“三月份爬虫”，应届毕业生为交论文常在这个时间点在网上爬取数据，此类爬虫通常简单粗暴，不管服务器压力。

4)近期做的推广活动带来访问压力增加。

2. 公司可免费查询的资源被批量抓走，丧失竞争力。

数据可以在非登录状态下直接被查询，比如下方的招聘信息