【反爬虫】在阿里云服务器所搭建的个人博客中通过Nginx进行反爬虫测试:禁止Python爬虫直接爬取博客页面实战——以信息校验型User-Agent反爬虫为例

        对于一个爬虫学习者来说,只懂得爬虫实现而不懂得反爬虫原理那恐怕只是半吊子水平。最近,博主就在研究反爬虫。爬虫和反爬虫相当于矛和盾的关系,二者针锋相对,共同发展。
        在本次反爬虫测试中,我主要用到Nginx+Postman+Pycharm。其中,Nginx是通过阿里云服务器使用宝塔Linux面板创建个人博客时内置的,本次问题的重点就是这个Nginx服务器。因为博主一直习惯Tomcat,Nginx也是随用随学的,所以对其内部构造并不太了解,因此在钻研使用Nginx进行反爬虫测试时在Nginx的辅助配置文件测试中耗费了大量的时间。

User-Agent反爬虫原理分析

        User-Agent反爬虫指的是服务器端通过校验请求头中的User-Agent值来区分正常用户和爬虫程序的手段。
        User-Agent是请求头域之一,服务器能够从User-Agent对应的值中识别客户端使用的操作系统、CPU类型、浏览器、浏览器引擎、操作系统语言等。浏览器User-Agent头域值的格式为:

浏览器标识 (操作系统标识;加密等级标识;浏览器语言) 渲染引擎标识 版本信息

        在网络请求中,User-Agent是客户端用于表明身份的一种标识,服务器通常通过该头域的值来判断客户端类型。注意:User-Agent头域并非不可缺少,而且其值可以被更改。
        之所以选择User-Agent头域作为校验对象,是因为很多编程语言和软件都具有默认的标识。在发起网络请求时,这个标识会作为请求头参数中的User-Agent头域值被发送到服务器。比如在使用Python的requests库向服务器发送HTTP请求时,服务器读取的User-Agent值为:

python-requests/2.21.0

        这相当于明明白白的告诉服务器“我是爬虫”。因此想要进行User-Agent反爬虫还是十分简单的,只需要在服务器端对User-Agent头域值进行校验即可。利用黑名单策略,将非正常客户端的关键字加入黑名单中,再利用n

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值