爬虫未来怎么搞？

最新推荐文章于 2024-07-19 17:17:26 发布

莫殇~

最新推荐文章于 2024-07-19 17:17:26 发布

阅读量269

点赞数 1

文章标签：大数据经验分享程序人生 python

本文链接：https://blog.csdn.net/qq_45042945/article/details/115865876

版权

爬虫还有出入嘛？这篇文章可能引起不适，还请不要带入情绪阅读，纯属个人想法。

还记得19年我刚搞爬虫，那时候真就什么什么都能爬，顶多换换ip,UA。

之后过了半年，我也入职了，发现爬虫没我想象的简单，很多网站都有js加密，滑块等等，这个时候就每天下班疯狂补js和前端知识，功夫不负有心人慢慢的很多加密中等难度以下的网站都被我攻克了，实在不行就selenium，反正就总归有办法可以爬到，这个时候我还是对爬虫有信心的。

入职又是半年，公司开始进攻移动端数据领域，一开始也就抓抓app的包吧，我心想也就那样和网页端一样，直到我遇到了请求是TCP或者就需要证书信任的请求，这个时候我又去了解了Xpoesd的justme，磕磕绊绊还是可以抓到。

入职一年，也就是2020年下半年，从我自己的角度来看这是反爬开始大进步的一年，这个时候我已经会APP反编译、脱壳和一点so层的加密破解，那时候我还觉得挺厉害，毕竟真的是每晚挑灯夜读，混口饭吃。

我自认为在爬虫领域已经走的比较远了，结果是什么？上头说搞几个app数据，我开始研究，发现就是一些不知名的app都套上了各种加壳，简单的加壳读内存还可以搞出来，难得搞出来我也不会修复。没加壳的app加密又大多在so层，这就是现在的app，说实话真的很让人绝望，非移动安全领域的人怎么搞，我要是会搞为什么不去做移动安全，干嘛做爬虫这个高危职业。

行吧APP先放在一边，我开始回过头去搞网页数据，有大半年没搞，我去看了下，心底就2个字，**！怎么说呢，很多主流网站都开始疯狂反爬。自己不会加密？没事，向某数买一套，某数是啥？就是没好几年专门js逆向经验搞不出来的反爬，反爬的顶级难度，就是很难搞。我心想没事还有selenium，偷偷一笑，开始使用，然后呵呵，各大网站都开始检查了，你以为我没有抹掉特征？你可以去试试淘宝访问频繁的滑块，哪怕用的是接手真实浏览器都不行，呵呵，就是这么绝望。

说这些，其实也不是为了打击你，要是爬的都是些小网站，其实都是没反爬的，我这里主要说的都是大的平台，某宝，某团，特别是某多多，给新进来的爬虫萌新们写个建议，要是公司主要爬的都是小网站，可以平时多学学爬虫的运维，比如crawlab和scapy，说白了就是如何管理爬虫和对爬虫编写的简单规范化，这个对整个程序员学习之路都有帮助。如果是搞大平台的，首先确定公司有没有巨佬，没有人带实话说真的难比登天，有的而且人挺好的话恭喜你，未来不可限量，跟着好好学，做好学汇编，加密学，心理学，高数，还有近乎所有主流语言的准备，这真不是和你开玩笑。

反正这几年都这样过来的，到现在还是做简单的网站了，然后想做一套基于机器学习的自动化爬虫，甚至可以自动简单修复程序。至于高难度爬虫我想想还是算了吧，我感觉我所在城市(程序员平均工资全国前10），这方面的人才估计不超过一只手，我真不想秃顶。

莫殇~

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫未来怎么搞？

爬虫还有出入嘛？这篇文章可能引起不适，还请不要带入情绪阅读，纯属个人想法。还记得19年我刚搞爬虫，那时候真就什么什么都能爬，顶多换换ip,UA。之后过了半年，我也入职了，发现爬虫没我想象的简单，很多网站都有js加密，滑块等等，这个时候就每天下班疯狂补js和前端知识，功夫不负有心人慢慢的很多加密中等难度以下的网站都被我攻克了，实在不行就selenium，反正就总归有办法可以爬到，这个时候我还是对爬虫有信心的。入职又是半年，公司开始进攻移动端数据领域，一开始也就抓抓app的包吧，我心想也就那...
复制链接

扫一扫