爬虫一般处理流程和反爬措施小结( 待续)

2 篇文章 0 订阅
2 篇文章 0 订阅

1.爬虫启动流程

  1. 确认可行路径:无非就是app接口、不同的网页接口(合作平台、官方接口)
  2. 确认反爬措施:这一步是蛮重要的,可以为接下来的步骤提供参考。
  3. 从经验中比较容易的部分开始尝试
  4. 确认规则可行:以目前的技术积累(技术层次)反反爬措施有希望实现。(即可破解:模拟、转换出所需要的参数;)
  5. 如果需要的话,迭代 1234:
  6. 出爬虫demo
  7. 加反爬措施(IP代理、模拟登陆、准备足够多的账号、逆向分析JS加密混淆压缩)

2.反爬措施小结

  1. 分析请求头:通过参数的有无来确定请求者身份。
  2. 封ip:一般大公司都会比较谨慎、因为很容易误伤,所以会比较好用。
  3. JS加密混淆压缩:比较常用,但是据说都是可解的。只要前端知识够夯实。破解一般会要用到:浏览器断点分析、运行Base64 编码函数、。基于v8的nodejs
  4. 弹验证码:访问频率一高就出验证码
  5. 将内容混杂再一堆的html标签里,html5的特色吗?还是微信独特的反爬虫措施
  6. 临时URL(搜狗微信的文章和公众号都是临时的)
  7. 需要登陆才能爬取
  8. 需要登陆+特殊操作才能获取对应的信息
  9. 待续

可参考文章:
1.那些你不知道的爬虫反爬虫套路
2.数据抓取实践:对加密参数及压缩混淆 JS 的逆向分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值