IP突破反爬虫技巧分享（上）

最新推荐文章于 2024-02-19 22:39:47 发布

ffhh123321

最新推荐文章于 2024-02-19 22:39:47 发布

阅读量663

点赞数

分类专栏：飞鱼ip 文章标签： python

本文链接：https://blog.csdn.net/ffhh123321/article/details/108099946

版权

大数据在各个领域开始普遍使用，网络爬虫变得非常常见。很多网站也对爬虫进行了防御，设置了反爬虫机制，增加了难度，因为如果太多的爬虫来抓取，会对自家的服务器产生负担。代理IP下面针对网站常见的反爬方法进行了汇总，可以帮助大家顺利爬虫。

1、IP反爬
服务器会检测某个IP在单位时间内的请求次数，如果超过了这个阈值，就会直接拒绝服务，返回一些错误信息，这种情况可以称为封IP。封IP也分为永久被封和短时被封。
永久被封：进入黑名单中的IP永久不能访问
固定时段被封：IP一段时间失效
解决方案:采用代理突破IP访问限制，常规方法就是购买代理服务或者购买VPS服务器自己构建代理IP池

2、通过网页请求头反爬
这是网站最基本的反爬措施，也是最容易实现的反爬，但是破解起来也容易，只需要合理添加请求头即可正常访问目标网站获取数据。

3、验证码反爬
验证码反爬也是目前很多网站常用的一种反爬机制，随着技术的发展，验证码的花样也越来越多。验证码最初是几个数字组合的图形验证码，后来加入英文字母和混淆曲线。有的网站还可能加入中文字符验证码.

遇到有验证码的网页，目前就两种解决方案，一种是购买验证码识别服务，这些识别服务本身也是他们后台人工去识别之后通过接口返回识别结果;另一种是自己训练识别模型进行识别。此处主要介绍自己处理验证码的方案，对接服务的方式可以找对应识别平台依据API文档完成识别对接。

1)字符验证码：
普通字符识别，目前深度学习可以做到比人眼识别更高的准确率。可以通过深度学习来自己开发识别服务接口，流程如下：
一般训练样本都是通过爬虫对接实际的打码平台，进行数据的采集，保存正确的样本作为模型训练样本。目前训