python爬虫之反爬与反反爬技术

本文介绍了常见的反爬技术,包括headers请求头的使用,特别是User-Agent和Cookie字段,以及如何处理IP限制。针对IP限制,建议通过降低访问速率来避免被识别为爬虫。虽然验证码和动态页面的反爬策略未详细展开,但它们是反爬中的重要环节。
摘要由CSDN通过智能技术生成

反爬技术

1、headers请求头协议
可以在每个网页的这里找到:
在这里插入图片描述

这里的Request Headers就可以找到我们需要加上的请求头信息,使用requests模块一般情况下加上’User-Agent’就行了。下面对请求头信息里的几个部分做一个简单介绍
User-Agent
一种身份标识,服务器可以通过它了解到发起请求的是否是浏览器,为了绕过反爬我们通常将程序中的此参数改成对应浏览器的。比如我的google浏览器的:User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36
Cookie
网站存储在用户终端上的数据
Referer
一般情况下涉及页面跳转都会有Referer值
对于请求头的反爬技术,我们通常使用request模块手动加上就行了,像这样:
在这里插入图片描述
2、ip限制
有的网站会对同一用户访问的频率进行统计,频率太快就有可能被鉴别为爬虫,我们只需将程序访问速率变慢就行啦
3、验证码
暂不做介绍
4、动态页面
暂不做介绍

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值