Linux企业级项目实践之网络爬虫（3）——设计自己的网络爬虫

最新推荐文章于 2021-09-12 08:51:18 发布

weixin_30500663

最新推荐文章于 2021-09-12 08:51:18 发布

阅读量155

点赞数

文章标签：爬虫数据库

原文链接：http://www.cnblogs.com/new0801/p/6177007.html

版权

网络抓取系统分为核心和扩展组件两部分。核心部分是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。目标是尽量的模块化，并体现爬虫的功能特点。这部分提供简单、灵活的API，在基本不改变开发模式的情况下，编写一个爬虫。

扩展组件部分提供一些扩展的功能，内置了一些常用的组件，便于对爬虫进行功能扩展。

蜘蛛主要功能模块如下：

调度器

调度器负责管理待抓取的URL，以及去重的工作。调度器使用内存队列来管理URL，并进行去重。

下载器

下载器是爬虫的基础。下载页面之后才能进行其他后续操作。

页面处理器

一般来说，我们最终需要的都不是原始的HTML页面。我们需要对爬到的页面进行分析，转化成结构化的数据，并存储下来

持久化器

持久化器负责抽取结果的处理，包括计算、持久化到文件、数据库等。

转载于:https://www.cnblogs.com/new0801/p/6177007.html

weixin_30500663

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Linux企业级项目实践之网络爬虫（3）——设计自己的网络爬虫

网络抓取系统分为核心和扩展组件两部分。核心部分是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。目标是尽量的模块化，并体现爬虫的功能特点。这部分提供简单、灵活的API，在基本不改变开发模式的情况下，编写一个爬虫。扩展组件部分提供一些扩展的功能，内置了一些常用的组件，便于对爬虫进行功能扩展。蜘蛛主要功能模块如下：调度器调度器负责管理待抓取的URL，以及去重的工作。调度...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。