python 爬虫登录获取数据失败_爬虫总是失败？整理了常见的反爬手段与解决思路，建议收藏...

最新推荐文章于 2023-11-28 11:23:57 发布

weixin_39927408

最新推荐文章于 2023-11-28 11:23:57 发布

阅读量1.8k

点赞数 1

文章标签： python 爬虫登录获取数据失败

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39927408/article/details/111442179

版权

前言：爬虫本身会对网站增加一定的压力，所以也应该合理设定爬取速率，尽量避免对目标网站造成麻烦，影响网站正常使用，一定注意自己爬虫的姿势。也要注意不要利用爬虫非法盈利，不要爬取公民个人信息。

反爬的三个方向基于身份识别进行反爬

基于爬虫行为进行反爬

基于数据加密进行反爬

一、常见基于身份识别进行反爬

1 通过headers字段来反爬

headers中有很多字段，这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫

1.1 通过headers中的User-Agent字段来反爬反爬原理：爬虫默认情况下没有User-Agent，而是使用模块默认设置

解决方法：请求之前添加User-Agent即可；更好的方式是使用User-Agent池来解决(收集一堆User-Agent的方式，或者是随机生成User-Agent)

1.2 通过referer字段或者是其他字段来反爬反爬原理：爬虫默认情况下不会带上referer字段，服务器端通过判断请求发起的源头，以此判断请求是否合法

解决方法：添加referer字段

1.3 通过cookie来反爬反爬原因：通过检查cookies来查看发起请求的用户是否具备相应权限，以此来进行反爬

解决方案：进行模拟登陆，成功获取cookies之后在进行数据爬取

2 通过请求参数来反爬

请求参数的获取方法有很多，向服务器发送请求，很多时候需要携带请求参数，通常服务器端可以通过检查请求参数是否正确来判断是否为爬虫

2.1 通过从html静态文件中获取请求数据(github登录数据)反爬原因：通

最低0.47元/天解锁文章

weixin_39927408

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫登录获取数据失败_爬虫总是失败？整理了常见的反爬手段与解决思路，建议收藏...

前言：爬虫本身会对网站增加一定的压力，所以也应该合理设定爬取速率，尽量避免对目标网站造成麻烦，影响网站正常使用，一定注意自己爬虫的姿势。也要注意不要利用爬虫非法盈利，不要爬取公民个人信息。反爬的三个方向基于身份识别进行反爬基于爬虫行为进行反爬基于数据加密进行反爬一、常见基于身份识别进行反爬1 通过headers字段来反爬headers中有很多字段，这些字段都有可能会被对方服务器拿过来进行判断是否...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。