爬虫 纵观

继上篇文章采集图片后,有朋友问采集就这么简单吗?

当然No No No!!!!

获取数据的渠道多种多样,根据需求,可以从小程序、PC、h5、app、官方接口等等获取数据。当然 你从别人的地方获取数据,别人哪儿能那么轻易的让你获取到数据呢!所以就出现了各种反爬!我简单总结了几种......

  1. 对UA的检测,切换UA可以避免检测;
  2. 对IP的检测,所以就会出现市面上的代理IP。免费的不用说,很low。收费的代理质量也是良莠不齐;
  3. 对请求过程中数据的加密,常见的加密方式有MD5,RSA,DES,SHA....
    (1)PC,h5 端的js加密,大多都会通过混淆映射然后加密。
    (2)APP端的加密java层的很少,基本上都是在so加密,这样破解的难度大大增高
  4. cookie检测,例如账户检测,指纹等一些用户信息或者本地浏览器的一些信息
  5. 滑块,有的人通过js直接硬刚,但是不建议这么做,为什么呢?花费时间比较多,服务端稍加变化就得从新破解。这里采用自动化的工具。滑块的方式有很多。会加上机器学习+自动化工具 轻松过掉滑块。也要避免检测自动化工具

好了!! 简单聊下反爬,还得在实际的项目上见真章!

五九三六九五七六二 欢迎QQ讨论!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值