爬虫中的那些反爬虫措施以及解决方法

最新推荐文章于 2024-09-29 14:29:17 发布

LessenPaul

最新推荐文章于 2024-09-29 14:29:17 发布

阅读量3.2k

点赞数 4

分类专栏：爬虫spider 文章标签： python ajax

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Leccen/article/details/106480317

版权

本文详细介绍了爬虫在抓取过程中可能遇到的反爬虫措施，包括UserAgent限制、IP限制、验证码、Ajax动态加载、cookies限制、JS加密以及数据加密等，并针对每种情况提供了相应的解决方案，如更换UserAgent、使用IP代理池、模拟登录、解析Ajax请求等，旨在帮助爬虫开发者更好地应对反爬挑战。

摘要由CSDN通过智能技术生成

在爬虫中遇到反爬虫真的是家常便饭了，这篇博客我想结合我自己的经验将遇到过的那些问题给出来，并给出一些解决方案。

1、UserAgent

UserAgent的设置能使服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本等信息。对于一些网站来说，它会检查我们发送的请求中所携带的UserAgent字段，如果非浏览器，就会被识别为爬虫，一旦被识别出来，我们的爬虫也就无法正常爬取数据了。

解决方法

收集常见的useragent作为配置文件，每次访问的时候取出一个作为头部发送请求，需要注意的是同一个useragent如果访问频率太高也有可能被识别出来而被禁止，因此可以设置随机选取的策略，每一次访问都随机选取一个。此外对于那些支持m端的网站，有时会根据useragent识别是否为移动端，如果是可能会自动跳转到移动端，如果此时你正在爬取的是web端的话就有可能解析出问题，所以需要注意。
我们可以使用第三方库：

from fake_useragent import UserAgent
ua = UserAgent()
print(

最低0.47元/天解锁文章

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。