学1个月爬虫就月赚6000？别被骗了，老师傅告诉你爬虫的真实情况！(2)

最新推荐文章于 2024-07-26 16:52:12 发布

2401_84692641

最新推荐文章于 2024-07-26 16:52:12 发布

阅读量1.7k

点赞数 29

分类专栏：程序员文章标签：爬虫

本文链接：https://blog.csdn.net/2401_84692641/article/details/138408884

版权

程序员专栏收录该内容

96 篇文章 0 订阅

订阅专栏

那么我们回顾一下前面那个小伙子的事情，上面这些东西对于新手来说1个月能学完吗？我觉得难度不小，我不说别的，就说Python入门这一块，就包含了不少的东西。

在这里插入图片描述

1天4个小时学习，没有基础的话，在Python入门这一块你可能就要花2周时间才能学完且稳固，剩下的两周，你能学完并掌握初级爬虫剩下的知识吗？

技术这条道路上很忌讳急功近利。我知道你可以从头到晚看完并理解一本书就只需要几天时间，但看完了你能用起来吗？看是看完了，但看了什么记不起来了，你需要反复练习，同样的，你1个月是能跟着学完没有问题，但你能不能站得稳还是个问题。

更何况，有些机构的课程都是挑肥拣瘦。

三、中级爬虫

中级爬虫的水平可以算是职业爬虫师的基本水平，除了初级爬虫的知识点之外，还应该掌握以下一些知识点：

在这里插入图片描述

1.爬取方式

当你的requests 不顶用的时候（爬下来的和网页显示的不一样），你就应该想到数据来源可能是 Ajax，你去分析网站的时候就得懂JavaScript ；如果想绕过分析 Ajax 和一些 JavaScript 逻辑的过程来爬取数据，我们就得用 Puppeteer、Pyppeteer、Selenium、Splash 等来模拟浏览器的方式来爬取。

2.爬取速度

除了爬取方式，还有爬取速度，这时候你就得有多进程、多线程、协程的知识储备了。

3.爬APP

如果你只会网页爬虫，那你还算不上中级爬虫的水平，你还得会爬APP，APP也占据着半壁江山。

这个时候你就得会Charles、Fiddler抓包了，抓到之后拿来模拟就行；如果接口被加密了，可以用 mitmproxy 直接监听接口数据或者走 Hook，比如上 Xposed 也可以拿到。

爬APP时还有一点比较重要，就是自动化爬取。如果是自己手动戳来实现爬虫的话，给再多钱也没用，这就不是个人干的活…比较好的解决方案就是adb工具和Appium ，你说该不该学？

在这里插入图片描述

粉丝福利，点击可查看

四、高级爬虫

高级爬虫师不管是在职场还是兼职方面，都有着很大的优势，高级爬虫水平应该掌握以下几个方面的技术：

在这里插入图片描述

1.企业级爬虫

但凡是接触过大规模的爬虫的人都会有所体会到，多线程、多进程和协程虽然能够加快爬取速度，但说白了还是个单机的爬虫，比起更高级的分布式爬虫要逊色很多，分布式爬虫才算得上企业级爬虫。

分布式爬虫的重心就在于资源共享，那么我们很有必要去掌握的东西就是RabbitMQ、Celery、Kafka，用来这些基础的队列或者组件来实现分布式；其次就是我们大名鼎鼎的Scrapy爬虫框架，也是目前用的最多的爬虫框架，对于Scrapy的Redis、Redis-BloomFilter、Cluster 的理解和掌握是必不可少的。

掌握这些东西之后，你的爬虫才能达到企业级的高效率爬虫。

在这里插入图片描述

2.应对反爬的技术

高级爬虫水平应该考虑的另一个重心就是反爬。

网页反爬机制的常见操作就是验证码，什么滑块验证啊、实物勾选啊、加减法啊等等的，招式层出不穷，这个时候你就得知道如何去应付这些常见的验证码了。

还有反爬中常见的IP检测，搞不好就会封你的号，所以应对手法也是必须得有的，不管你是用免费代理还是付费代理来换代理IP，都是可以的。

以及应对反爬时的分流技术避免账号被封，分流技术就得建池子，Cookies 池、Token 池、Sign 池，都可以，有了池子之后，你被封的概率也会降低，你也不想爬个公众号结果WX被封了吧？

在这里插入图片描述

五、更高水平的爬虫（爬虫的巅峰）

更高水平的爬虫，以下4点是必会的内容：

在这里插入图片描述

1.JS逆向

为什么要学JS逆向爬取？ 在反爬和反反爬的对抗中，用Selenium 等方式来爬也是可以，但效率还是低了，毕竟它模拟的是网页渲染的整个过程，而真实的数据可能仅仅就藏在一个小接口里，所以JS逆向则是更高级别的爬取技术，尤其是在大型网站的数据爬取，例如某多多和某宝，如果你能用JS逆向去爬下来，无疑是技术高超的证明之一，但JS逆向也不是谁都能修炼成的，确实烧头发。

APP的逆向就更不用说，网页可以逆向，APP也能逆向，那你配得上“牛逼”二字。

2.智能化爬虫

何为智能化爬虫？ 举个例子，一般情况下，写一个爬取小说网站的爬虫，要根据不同的网站编写不同的提取规则，才能提取出想要的内容。而如果使用智能化解析的话，不论是哪个网站，你只需要把网页的url传递给它，就可以通过算法智能识别出标题、内容、更新时间等信息，而不需要重复编写提取规则。

智能化爬虫简而言之就是爬虫与机器学习技术相结合，使得爬虫更加智能化，不然的话，要爬1万个网站，难道我们要写1万个爬虫脚本？

在这里插入图片描述

3.爬虫与运维

爬虫什么时候与运维搭上关系了?它们俩一直都有着密不可分的关系，只是你的爬虫需求或者水平没有达到，所以不会考虑到它们。

爬虫与运维的关系主要体现在部署和分发、数据的存储和监控这几个方面。

比如说如何把1个爬虫快速部署到100台主机运行起来?比如怎样监控一些爬虫的占用内存和 CPU 状况?比如爬虫如何设置报警机制来保证爬虫项目的安全？

Kubernetes 、Prometheus 、Grafana是爬虫在运维方面用的比较多的技术，在做大点的爬虫项目时我也是经常拿它们来保驾护航。

4.爬虫的巅峰

如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费学习大礼包，带大家一起学习，给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间，但是打下坚实的基础只要几周就可以，如果你按照我提供的学习路线以及资料有意识地去实践，你就有很大可能成功！
最后祝你好运！！！

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2401_84692641

关注

29
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
学1个月爬虫就月赚6000？别被骗了，老师傅告诉你爬虫的真实情况！(2)

那么我们回顾一下前面那个小伙子的事情，上面这些东西对于新手来说1个月能学完吗？我觉得难度不小，我不说别的，就说Python入门这一块，就包含了不少的东西。1天4个小时学习，没有基础的话，在Python入门这一块你可能就要花2周时间才能学完且稳固，剩下的两周，你能学完并掌握初级爬虫剩下的知识吗？。我知道你可以从头到晚看完并理解一本书就只需要几天时间，但看完了你能用起来吗？看是看完了，但看了什么记不起来了，你需要反复练习，同样的，你1个月是能跟着学完没有问题，但你能不能站得稳还是个问题。
复制链接

扫一扫