爬虫一般处理流程和反爬措施小结（待续）

最新推荐文章于 2023-11-17 10:59:12 发布

VeeLe

最新推荐文章于 2023-11-17 10:59:12 发布

阅读量1k

点赞数 1

分类专栏： python 基础知识概念文章标签：反爬虫爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ml_1019/article/details/81287206

版权

python 同时被 3 个专栏收录

27 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

1.爬虫启动流程

确认可行路径：无非就是app接口、不同的网页接口（合作平台、官方接口）
确认反爬措施：这一步是蛮重要的，可以为接下来的步骤提供参考。
从经验中比较容易的部分开始尝试
确认规则可行：以目前的技术积累（技术层次）反反爬措施有希望实现。（即可破解：模拟、转换出所需要的参数；）
如果需要的话，迭代 1234：
出爬虫demo
加反爬措施（IP代理、模拟登陆、准备足够多的账号、逆向分析JS加密混淆压缩）

2.反爬措施小结

分析请求头：通过参数的有无来确定请求者身份。
封ip：一般大公司都会比较谨慎、因为很容易误伤，所以会比较好用。
JS加密混淆压缩：比较常用，但是据说都是可解的。只要前端知识够夯实。破解一般会要用到：浏览器断点分析、运行Base64 编码函数、。基于v8的nodejs
弹验证码：访问频率一高就出验证码
将内容混杂再一堆的html标签里，html5的特色吗？还是微信独特的反爬虫措施
临时URL（搜狗微信的文章和公众号都是临时的）
需要登陆才能爬取
需要登陆+特殊操作才能获取对应的信息
待续

可参考文章：
1.那些你不知道的爬虫反爬虫套路
 2.数据抓取实践：对加密参数及压缩混淆 JS 的逆向分析

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。