今天聊聊爬虫那些事,在我踏入编程四五年来,我一直以为实现爬虫是一个很牛逼事,很困难的事,也是我一直想知道的事,至到现在才豁然开朗,我这段时间比较闲,然后到慕课网找些技术视频学习,然后看到“pyhon开发简单爬虫”视频,他里面讲的非常好,他主要讲了以pyhon语言为例怎么开发爬虫思想和架构,开发爬虫可以有很多技术,比如php,node.js等,但是我们最重要的知道思想和流程,只要知道这些使用什么语言开发都很容易了。下面我们来谈谈“pyhon开发简单爬虫”视频的架构:
分四个模块:调度模块,URL管理模块,下载模块,内容分析模块,数据存储模块
调度模块:用来做各个模块调度。
URL管理模块:管理已经下载过url和没有下载url。
下载模块:下载内容。
内容分析模块:分析分离需要下载url和重要内容。
数据存储模块:保存重要内容数据。