python爬虫之反爬与反反爬技术

最新推荐文章于 2024-06-28 23:43:40 发布

请不要在网络上随地大小便！

最新推荐文章于 2024-06-28 23:43:40 发布

阅读量617

点赞数 1

分类专栏： python爬虫学习

一只野山猪

本文链接：https://blog.csdn.net/m0_51405867/article/details/113856874

版权

python爬虫学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了常见的反爬技术，包括headers请求头的使用，特别是User-Agent和Cookie字段，以及如何处理IP限制。针对IP限制，建议通过降低访问速率来避免被识别为爬虫。虽然验证码和动态页面的反爬策略未详细展开，但它们是反爬中的重要环节。

摘要由CSDN通过智能技术生成

反爬技术

1、headers请求头协议
可以在每个网页的这里找到：
在这里插入图片描述

这里的Request Headers就可以找到我们需要加上的请求头信息，使用requests模块一般情况下加上’User-Agent’就行了。下面对请求头信息里的几个部分做一个简单介绍
User-Agent
一种身份标识，服务器可以通过它了解到发起请求的是否是浏览器，为了绕过反爬我们通常将程序中的此参数改成对应浏览器的。比如我的google浏览器的：User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36
Cookie
网站存储在用户终端上的数据
Referer
一般情况下涉及页面跳转都会有Referer值
对于请求头的反爬技术，我们通常使用request模块手动加上就行了，像这样：
在这里插入图片描述
2、ip限制
有的网站会对同一用户访问的频率进行统计，频率太快就有可能被鉴别为爬虫，我们只需将程序访问速率变慢就行啦
3、验证码
暂不做介绍
4、动态页面
暂不做介绍

请不要在网络上随地大小便！

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之反爬与反反爬技术

反爬技术1、headers请求头协议可以在每个网页的这里找到：这里的Request Headers就可以找到我们需要加上的请求头信息，使用requests模块一般情况下加上’User-Agent’就行了。下面对请求头信息里的几个部分做一个简单介绍User-Agent一种身份标识，服务器可以通过它了解到发起请求的是否是浏览器，为了绕过反爬我们通常将程序中的此参数改成对应浏览器的。比如我的google浏览器的：User-Agent: Mozilla/5.0 (Windows NT 10.0; Win
复制链接

扫一扫

专栏目录