爬虫未来怎么搞?

    爬虫还有出入嘛?这篇文章可能引起不适,还请不要带入情绪阅读,纯属个人想法。

                                                                                                                                                                                                                      

还记得19年我刚搞爬虫,那时候真就什么什么都能爬,顶多换换ip,UA。

之后过了半年,我也入职了,发现爬虫没我想象的简单,很多网站都有js加密,滑块等等,这个时候就每天下班疯狂补js和前端知识,功夫不负有心人慢慢的很多加密中等难度以下的网站都被我攻克了,实在不行就selenium,反正就总归有办法可以爬到,这个时候我还是对爬虫有信心的。

入职又是半年,公司开始进攻移动端数据领域,一开始也就抓抓app的包吧,我心想也就那样和网页端一样,直到我遇到了请求是TCP或者就需要证书信任的请求,这个时候我又去了解了Xpoesd的justme,磕磕绊绊还是可以抓到。

入职一年,也就是2020年下半年,从我自己的角度来看这是反爬开始大进步的一年,这个时候我已经会APP反编译、脱壳和一点so层的加密破解,那时候我还觉得挺厉害,毕竟真的是每晚挑灯夜读,混口饭吃。

我自认为在爬虫领域已经走的比较远了,结果是什么?上头说搞几个app数据,我开始研究,发现就是一些不知名的app都套上了各种加壳,简单的加壳读内存还可以搞出来,难得搞出来我也不会修复。没加壳的app加密又大多在so层,这就是现在的app,说实话真的很让人绝望,非移动安全领域的人怎么搞,我要是会搞为什么不去做移动安全,干嘛做爬虫这个高危职业。

行吧APP先放在一边,我开始回过头去搞网页数据,有大半年没搞,我去看了下,心底就2个字,**!怎么说呢,很多主流网站都开始疯狂反爬。自己不会加密?没事,向某数买一套,某数是啥?就是没好几年专门js逆向经验搞不出来的反爬,反爬的顶级难度,就是很难搞。我心想没事还有selenium,偷偷一笑,开始使用,然后呵呵,各大网站都开始检查了,你以为我没有抹掉特征?你可以去试试淘宝访问频繁的滑块,哪怕用的是接手真实浏览器都不行,呵呵,就是这么绝望。

说这些,其实也不是为了打击你,要是爬的都是些小网站,其实都是没反爬的,我这里主要说的都是大的平台,某宝,某团,特别是某多多,给新进来的爬虫萌新们写个建议,要是公司主要爬的都是小网站,可以平时多学学爬虫的运维,比如crawlab和scapy,说白了就是如何管理爬虫和对爬虫编写的简单规范化,这个对整个程序员学习之路都有帮助。如果是搞大平台的,首先确定公司有没有巨佬,没有人带实话说真的难比登天,有的而且人挺好的话恭喜你,未来不可限量,跟着好好学,做好学汇编,加密学,心理学,高数,还有近乎所有主流语言的准备,这真不是和你开玩笑。

反正这几年都这样过来的,到现在还是做简单的网站了,然后想做一套基于机器学习的自动化爬虫,甚至可以自动简单修复程序。至于高难度爬虫我想想还是算了吧,我感觉我所在城市(程序员平均工资全国前10),这方面的人才估计不超过一只手,我真不想秃顶。
 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值