实现网络爬虫思路

今天聊聊爬虫那些事,在我踏入编程四五年来,我一直以为实现爬虫是一个很牛逼事,很困难的事,也是我一直想知道的事,至到现在才豁然开朗,我这段时间比较闲,然后到慕课网找些技术视频学习,然后看到“pyhon开发简单爬虫”视频,他里面讲的非常好,他主要讲了以pyhon语言为例怎么开发爬虫思想和架构,开发爬虫可以有很多技术,比如php,node.js等,但是我们最重要的知道思想和流程,只要知道这些使用什么语言开发都很容易了。下面我们来谈谈“pyhon开发简单爬虫”视频的架构:

分四个模块:调度模块,URL管理模块,下载模块,内容分析模块,数据存储模块

调度模块:用来做各个模块调度。
URL管理模块:管理已经下载过url和没有下载url。
下载模块:下载内容。
内容分析模块:分析分离需要下载url和重要内容。
数据存储模块:保存重要内容数据。

流程图:

这里写图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值