常见的反爬措施及解决方案

最新推荐文章于 2024-08-20 02:29:23 发布

极地星光

最新推荐文章于 2024-08-20 02:29:23 发布

阅读量3.7k

点赞数 3

文章标签：爬虫反爬数据采集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35809147/article/details/87878176

版权

1.IP封锁
因为会对用户产生误伤，所以网站一般不会对用户的IP进行长时间的封锁。
解决方案：
（1）修改程序的访问频率
（2）使用IP代理的方式来对网站进行爬取

2.协议头
绝大多数网站，访问时会判断访问来源。
解决方案：
（1）访问时添加协议头

3.验证码
当用户请求频率过高的时候，有些网站就会触发验证码验证机制。
解决方案：
接入打码API，例如云打码。

4.需要登录
有些网站需要用户登录之后才能够获取页面中的信息，那么这种防护能非常有效的防止数据被大批量的被爬取。
解决方案：
（1）小数据量进行爬取(模拟登录后再去爬取，或者使用cookies 直接进行爬取)
（2）申请诸多的账号去养这些号，然后登录，或者获得cookies进行爬取。

5、动态页面的爬取
有一些网站的数据和图片是用JS代码动态生成的，那么服务器端，就会通过判断该用户是否访问了这些资源来判断是否爬虫。
解决方案：
（1）使用selenium

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

极地星光 CSDN认证博客专家 CSDN认证企业博客

码龄8年

204: 原创

1万+: 周排名

6988: 总排名

37万+: 访问

: 等级

4799: 积分

913: 粉丝

475: 获赞

42: 评论

1608: 收藏

私信

关注

热门文章

分类专栏

Git 6篇
软件功能原理 7篇
研发管理 2篇
QT 13篇
Linux 4篇
C/C++ 27篇
运维 13篇
CMake 2篇
音视频 2篇
软件作品 1篇
通信 1篇
设计模式 8篇
网络通信 6篇
多线程开发 10篇
Django 23篇
PyQt 46篇
Opencv
架构 1篇
Python 51篇
MySql 2篇

最新评论

通过git 上传本地代码至码云
CSDN-Ada助手: 软件工程问题：在项目开始之前, 有很多队员还没有接触过编程语言（例如C#），导致PM在分配任务时很难用时间来衡量，就拿写一个Web Service这一模块来说，一个熟练的程序员可能只需要两个小时，而对于初学者来说，就得先花两天来理解Web Service的实现机制和原理。在有限时间的催促下，导致一些紧急的任务不断向高手集中，而初学者的任务越来越少。这时应该怎么办？
Git Submodule 常用命令详解
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
C++ 类型转换
杨树与晨光: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】，期待互关☒☒☒
PyQt——高清屏幕自适应设置
M1r4n: PyQt——高清屏幕自适应设置值得学习，非常受益，期待qq_35809147的下一篇文章
多线程互斥锁Lock和RLock区别
suda_cat: 比较清晰，比其他的强👍

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。