常见爬虫/BOT对抗技术介绍（一）

最新推荐文章于 2024-05-27 08:52:59 发布

置顶

THISISPAN

最新推荐文章于 2024-05-27 08:52:59 发布

阅读量1.5k

点赞数 2

文章标签： python 爬虫大数据代理ip 动态IP

本文链接：https://blog.csdn.net/THISISPAN/article/details/86244166

版权

爬虫，是大家获取互联网公开数据的有效手段。爬虫、反爬虫技术、反-反爬虫技术随着互联网的不断发展，也在不断发展更新，本文简要介绍现代的爬虫/BOT对抗技术，如有疏漏，多谢指正！

一、反爬虫/BOT技术

1.1 Robots.txt

Robots.txt是一个古老的爬虫协议文件，他的位置位于域名根目录下。譬如http://example.com/robots.txt 。严格来讲Robots.txt并不算一个反爬虫技术，而是一个由爬虫遵守的协议。它通过几个简单的命令告知遵守Robots.txt的爬虫哪些可以被爬取，哪些不能。一般的搜索引擎爬虫会遵守这个协议，而对于上升到爬虫技术对抗的层次来说，这个文件毫无意义。

1.2 IP层/网络层

网络层是反爬虫技术涉及到的最下层，再下的链路层信息在IP报文的传输过程中会被三层交换机丢弃，没有任何意义。IP报文带有的最重要的信息就是IP请求的来源地址，来源地址极难（近乎不可能）伪造的特性，使得这个字段成为反爬虫策略中最重要的字段。封杀IP/IP段是网站可以执行的最严厉的惩罚。由于国内的ISP大量的使用了NAT技术，导致大量用户共用IP的情况越来越多，内容提供方在做IP封杀时会越来越谨慎，因为这样做会导致极高的误杀率，以至影响正常用户的网站访问。但是即使如此，源IP也是反爬虫策略中最为核心的数据，反爬策略的执行动作一般都要围绕源IP进行。

1.3 HTTP层

HTTP协议层有几个有趣的HTTP头，它们是制定反爬虫策略的常用数据。

1.3.1 X-Forwarded-For

X-Forwarded-For（XFF）是用来识别通过HTTP代理或负载均衡方式连接到Web服务器的客户端最原始的IP地址的HTTP请求头字段。 Squid 缓存代理服务器的开发人员最早引入了这一HTTP头字段，并由IETF在HTTP头字段标准化草案中正式提出。
XFF头由普通HTTP代理服务器添加，在用户通过普通HTTP代理访问网站时，用户的IP地址会被添加到这个头中。一些新手程序员在写代码时，往往会把这个的IP地址当做用户的真实IP地址使用，从而被爬虫利用。

1.3.2 Referer

Referer是浏览器在页面跳转时带入的HTTP头，指示用户上一个页面的URL，一般来说，网站90%以上的流量应该带有Referer头，在一些常见的反爬策略中，大量的不带Referer头的源IP请求会触发"要求输入验证码"策略。

1.3.3 User-Agent

User-Agent 是一个古老的HTTP头，指示用户浏览器的版本、操作系统等基本信息， UserAgent伪装已经在其他的文章里有过充分的讨论，故本文不再赘述。

1.4 应用层/浏览器层

在HTTP层之上是应用层，HTTP层上的数据最终会交由浏览器

最低0.47元/天解锁文章

THISISPAN

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
常见爬虫/BOT对抗技术介绍（一）

爬虫，是大家获取互联网公开数据的有效手段。爬虫、反爬虫技术、反-反爬虫技术随着互联网的不断发展，也在不断发展更新，本文简要介绍现代的爬虫/BOT对抗技术，如有疏漏，多谢指正！一、反爬虫/BOT技术1.1 Robots.txtRobots.txt是一个古老的爬虫协议文件，他的位置位于域名根目录下。譬如http://example.com/robots.txt 。严格来...
复制链接

扫一扫