【反爬虫】在阿里云服务器所搭建的个人博客中通过Nginx进行反爬虫测试：禁止Python爬虫直接爬取博客页面实战——以信息校验型User-Agent反爬虫为例

最新推荐文章于 2024-05-30 19:33:23 发布

Hakutaku白泽

最新推荐文章于 2024-05-30 19:33:23 发布

阅读量1.1k

点赞数 1

分类专栏：反爬虫专栏 Python专栏文章标签： python linux 爬虫 http

本文链接：https://blog.csdn.net/qq_42506411/article/details/107735171

版权

本文探讨了如何在阿里云服务器上使用Nginx进行User-Agent反爬虫，通过分析User-Agent原理，进行测试并实战配置，阻止Python爬虫直接访问个人博客。在宝塔Linux面板中修改特定配置文件后，实现了对Python爬虫的拦截，而Postman仍能正常访问，展示了初步的反爬虫效果。

摘要由CSDN通过智能技术生成

对于一个爬虫学习者来说，只懂得爬虫实现而不懂得反爬虫原理那恐怕只是半吊子水平。最近，博主就在研究反爬虫。爬虫和反爬虫相当于矛和盾的关系，二者针锋相对，共同发展。
在本次反爬虫测试中，我主要用到Nginx+Postman+Pycharm。其中，Nginx是通过阿里云服务器使用宝塔Linux面板创建个人博客时内置的，本次问题的重点就是这个Nginx服务器。因为博主一直习惯Tomcat，Nginx也是随用随学的，所以对其内部构造并不太了解，因此在钻研使用Nginx进行反爬虫测试时在Nginx的辅助配置文件测试中耗费了大量的时间。

User-Agent反爬虫原理分析

User-Agent反爬虫指的是服务器端通过校验请求头中的User-Agent值来区分正常用户和爬虫程序的手段。
User-Agent是请求头域之一，服务器能够从User-Agent对应的值中识别客户端使用的操作系统、CPU类型、浏览器、浏览器引擎、操作系统语言等。浏览器User-Agent头域值的格式为：

浏览器标识 （操作系统标识；加密等级标识；浏览器语言） 渲染引擎标识 版本信息

在网络请求中，User-Agent是客户端用于表明身份的一种标识，服务器通常通过该头域的值来判断客户端类型。注意：User-Agent头域并非不可缺少，而且其值可以被更改。
之所以选择User-Agent头域作为校验对象，是因为很多编程语言和软件都具有默认的标识。在发起网络请求时，这个标识会作为请求头参数中的User-Agent头域值被发送到服务器。比如在使用Python的requests库向服务器发送HTTP请求时，服务器读取的User-Agent值为：