1.爬虫启动流程
- 确认可行路径:无非就是app接口、不同的网页接口(合作平台、官方接口)
- 确认反爬措施:这一步是蛮重要的,可以为接下来的步骤提供参考。
- 从经验中比较容易的部分开始尝试
- 确认规则可行:以目前的技术积累(技术层次)反反爬措施有希望实现。(即可破解:模拟、转换出所需要的参数;)
- 如果需要的话,迭代 1234:
- 出爬虫demo
- 加反爬措施(IP代理、模拟登陆、准备足够多的账号、逆向分析JS加密混淆压缩)
2.反爬措施小结
- 分析请求头:通过参数的有无来确定请求者身份。
- 封ip:一般大公司都会比较谨慎、因为很容易误伤,所以会比较好用。
- JS加密混淆压缩:比较常用,但是据说都是可解的。只要前端知识够夯实。破解一般会要用到:浏览器断点分析、运行Base64 编码函数、。基于v8的nodejs
- 弹验证码:访问频率一高就出验证码
- 将内容混杂再一堆的html标签里,html5的特色吗?还是微信独特的反爬虫措施
- 临时URL(搜狗微信的文章和公众号都是临时的)
- 需要登陆才能爬取
- 需要登陆+特殊操作才能获取对应的信息
- 待续
可参考文章:
1.那些你不知道的爬虫反爬虫套路
2.数据抓取实践:对加密参数及压缩混淆 JS 的逆向分析