爬虫入门（5）——反爬（1）

最新推荐文章于 2024-04-14 10:15:00 发布

WHJ226

最新推荐文章于 2024-04-14 10:15:00 发布

阅读量2k

点赞数 7

分类专栏：爬虫入门文章标签： python

本文链接：https://blog.csdn.net/WHJ226/article/details/125088880

版权

爬虫入门专栏收录该内容

21 篇文章 11 订阅

订阅专栏

本文介绍了HTTP请求头中的User-Agent、Cookie和Referer字段在服务器进行反爬策略中的作用。User-Agent常被用来区分爬虫和真人；Cookie用于保持用户状态，反爬中用于验证请求合法性；Referer则记录来源页面，辅助判断请求来源的真实性。通过示例代码展示了如何设置这些头信息进行模拟请求。

摘要由CSDN通过智能技术生成

1. User-Agent

2. Cookie校验

3. Referer校验

Header信息校验指的是当我们在使用客户端服务器发送请求的时候，会在请求头里携带一些信息，而服务端在接收我们的请求时，会先对这些信息进行完整性、合法性、唯一性等规则判断，以此来辨别我们是真人在访问还是程序在访问。

1. User-Agent

User-Agent是反爬策略中最基础也是最简单的一种反爬手段，服务器通过接收请求头中的User-Agent值来区分正常用户和爬虫程序。

我们以C站为例子：

F12键进入以下页面获取User-Agent：

import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.41 Safari/537.36'
}#请求头，伪装
url = 'https://www.csdn.net/'
response = requests.get(url=url,headers=headers)
print(response.status_code)

运行结果如下：

2. Cookie校验

Cookie主要用于Web服务器存储用户信息或状态保持，其实除了这些用途外，它还可以用于反爬。因为大部分的爬虫程序在默认的情况下只请求HTML文本资源或直接请求通过抓包得到的某一个XHR接口，这意味着他们并不会主动去完成浏览器保存Cookie的操作。

以百度为例：

import requests
headers = {
'Cookie': '__yjs_duid=1_6d587624bf6abfe99322f5c01938fb441632036910376; BAIDUID=97913DBB99CA0EE112594ED1359ED98F:FG=1;'
          ' BAIDUID_BFESS=97913DBB99CA0EE112594ED1359ED98F:FG=1; BAIDU_WISE_UID=wapp_1634116192620_213; BIDUPSID=97913DBB99CA0EE112594ED1359ED98F;'
          ' PSTM=1636589861; BD_UPN=12314753; channel=baidusearch; baikeVisitId=1a0f3c59-c902-4eea-95e2-fd192ee4d84d; '
          'COOKIE_SESSION=938_0_0_3_1_3_0_0_0_3_0_0_0_0_3_0_1653293361_0_1653293358%7C3%230_0_1653293358%7C1; '
          'sugstore=1; ZFY=blIG6sZPAv7:A94AcZSrxk6Vg78CaLEn7Y4ZFmizeScw:C; Hm_lvt_246a5e7d3670cfba258184e42d902b31=1653997716;'
          ' BA_HECTOR=018k85ak0h85ak25ah1h9dk9k15; BD_HOME=1; H_PS_PSSID=',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.41 Safari/537.36'
}
url = 'https://www.baidu.com/'
response = requests.get(url=url,headers=headers)
print(response.status_code)

运行结果如下：

Cookie反爬的原理是，当客户端在第一次请求网站指定的首页或登录页进行登录后，服务端会返回一个指定的Cookie值给客户端，而客户端如果是浏览器的话，浏览器会自动将服务端返回的这个Cookie值存储下来，当再次访问该网站上其他页面的时候，自动将保持的Cookie值在请求头里面传递过去，服务端在接收到这个Cookie值之后，验证是否合法，如果合法，则处理这个请求，否则拒绝请求。