Python 反爬虫——信息验证

本文介绍了Python反爬虫中的信息验证技术,包括User-Agent、Cookies和签名验证的反爬策略,并详细讲解了如何应对这些策略。同时,探讨了动态渲染反爬,如Selenium、Puppeteer和Splash工具的使用,帮助理解如何抓取和解析动态加载的内容。
摘要由CSDN通过智能技术生成
文中案例参考 GitHub项目

2 信息验证型反爬虫

2.1 User-Agent反爬虫

  • User-Agent是用户身份识别的重要信息,User-Agent中包含用户浏览器、浏览器引擎、操作系统等信息
  • python的requests库请求时候,服务器读取到的User-Agent信息就是 python-requests/2.21.0
  • User-Agent反爬虫:
    • nginx中加入User-Agent检测,将python,Java,PHP等一些关键词都加入到黑名单中
    • 检测时候,发现含有这些关键词,就认定为是爬虫程序
  • 除了User-Agent头部信息,常用的还有Host,Referer头部信息
      1. Host 描述请求将被发送的目的地,只含域名和端口号;
      1. Origin 请求是从哪里发起的,包括域名和端口号,这个参数一般存在于CORS跨域请求中,
        可以看到response有对应的header: Access-Control-Allow-Origin
      1. Referer 告知服务器请求的原始资源的URI,其用于所有类型的请求,包括:协议+域名+查询参数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值