继上篇文章采集图片后,有朋友问采集就这么简单吗?
当然No No No!!!!
获取数据的渠道多种多样,根据需求,可以从小程序、PC、h5、app、官方接口等等获取数据。当然 你从别人的地方获取数据,别人哪儿能那么轻易的让你获取到数据呢!所以就出现了各种反爬!我简单总结了几种......
- 对UA的检测,切换UA可以避免检测;
- 对IP的检测,所以就会出现市面上的代理IP。免费的不用说,很low。收费的代理质量也是良莠不齐;
- 对请求过程中数据的加密,常见的加密方式有MD5,RSA,DES,SHA....
(1)PC,h5 端的js加密,大多都会通过混淆映射然后加密。
(2)APP端的加密java层的很少,基本上都是在so加密,这样破解的难度大大增高 - cookie检测,例如账户检测,指纹等一些用户信息或者本地浏览器的一些信息
- 滑块,有的人通过js直接硬刚,但是不建议这么做,为什么呢?花费时间比较多,服务端稍加变化就得从新破解。这里采用自动化的工具。滑块的方式有很多。会加上机器学习+自动化工具 轻松过掉滑块。也要避免检测自动化工具
好了!! 简单聊下反爬,还得在实际的项目上见真章!
五九三六九五七六二 欢迎QQ讨论!