反爬记录之前述
记录的反爬专题并未涉及到scrapy等爬虫框架,也未涉及到和数据库的交互,仅仅是模拟接口,最后拿有效cookie,然后塞到浏览器中。
不知道后面我会不会去做这个方向,之前我也看过相关的书籍,但是实际工作中没用过,卵用没有。
由于工作性质,始终会涉及到一些爬虫问题,在年初刚结束的项目中,对爬虫又有了进一步的认识,时隔许久,即使我存有当时的开发说明文档,我决定还是要以这种方式记录下来,以供review。
不同的地区,反爬手段参差不齐。我在经手多个地区的基础上,综合反爬手段主要有:
隐性:前端加密算法;
显性:验证码、手机短信。
后面我会从各种前端加密算法、验证码入手,表达鄙人拙见,其中手机短信如果硬要绕过,反正我当时项目中涉及到的都没绕过,规规矩矩发的短信,拦截转发(能绕的话好是好,我觉得吧确实也有点不合规,不过我还是想看一看能绕过短信登录的接口是咋实现的)。
接口实现思路: 1、正常登录跑一遍流程2、看接口3、打断点分析,后面就看怎么实现了。
辅助工具:抓包工具:fiddler;接口测试工具:postman
一、前端加密算法
AES(ECB模式、CBC模式)
RSA
MD5
SHA1
SM4
…
二、验证码
中英混合
滑块
文字点选
计算题
…
三、手机短信
…
上面列举的三点,我会先从加密算法入手讲起