网络爬虫框架设计与实现

最新推荐文章于 2024-06-27 09:50:35 发布

YID_152

最新推荐文章于 2024-06-27 09:50:35 发布

阅读量2.8k

点赞数

分类专栏：走在go的路上文章标签：网络爬虫框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YID_152/article/details/76472622

版权

走在go的路上专栏收录该内容

17 篇文章 0 订阅

订阅专栏

引题

最近在看go语言的编程实现，里面有这个项目，感觉不错，在这里简
要总结和学习心得，给大家一个引路，如果想要具体了解可以看《GO 语言并发实践》

项目介绍

网络爬虫就是模拟客户端用户操作，自动化爬取相关的网络信息。即根据约定好的规则，在特定的入口进行递归式查询。下载特定的信息，整理给规则制定者。网络爬虫框架是高度抽象各种网络爬虫，提供一致性的接口给调用者。

功能需求和分析

根据上面介绍大家大体了解网络爬虫的基本功能，简要的的来讲网络爬虫就是下载，分析，筛选，保存—四个步骤。主要流程如下：

首次请求-》下载——》分析-》筛选-》保存
分析-》下载

总体设计

根据上述流程图可以把项目分成如下部分：

网页下载器：接收http请求，将从远程服务器获取的数据封装成固定格式的数据分发给分析器。
分析器：针对内容进行响应，筛选出来特定的请求和条目，转发给调用方。
条目处理管道：接受输入的条目，并针对其执行系列的处理。为了灵活性设计，采用多条目转发处理。由框架调用者自行定义处理流程。
调度器：作为核心组件，负责协调各个模块之间的协作，数据的交换和状态控制等。

详细设计

后面我将整理文章针对详每个模块提出详细实现和注意事项。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。