基于storm的实时数据处理方案

最新推荐文章于 2024-08-07 20:28:18 发布

end

最新推荐文章于 2024-08-07 20:28:18 发布

阅读量9k

点赞数 2

分类专栏： storm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/endlu/article/details/51169383

版权

本文详细介绍了以Storm为核心的实时数据处理架构，包括数据接入层（MetaQ、Socket、API、Log文件监控）、Storm实时处理系统以及数据落地层（MetaQ、Mysql、HDFS、Lustre）。阐述了使用Storm的原因，如性能、扩展性和丰富的资源，并探讨了元数据管理器的设计。此外，还对比了Storm与Hadoop的区别，并展望了Storm的应用前景。

摘要由CSDN通过智能技术生成

1 文档说明

该文档描述的是以storm为主体的实时处理架构，该架构包括了数据收集部分，实时处理部分，及数据落地部分。

关于不同部分的技术选型与业务需求及个人对相关技术的熟悉度有关，会一一进行分析。

该架构是本人所掌握的一种架构，可能会与其他架构有相似的部分，个人会一一解释对其的理解。

这个文章写的很详细，相信对大家在实时处理整体理解上会有帮助的。

2 实时处理架构

2.1 整体架构图

架构说明：

整个数据处理流程包括四部分，一部分是数据接入层，该部分从前端业务系统获取数据；中间部分是最重要的storm实时处理部分，数据从接入层接入，经过实时处理后传入数据落地层；第三部分为数据落地层，该部分指定了数据的落地方式；第四部分元数据管理器。

2.2 数据接入层

该部分有多种数据收集方式，包括使用消息队列（MetaQ），直接通过网络Socket传输数据，前端业务系统专有数据采集API，对Log问价定时监控。

2.2.1 MetaQ

为什么选择消息队列?

这或许是大家比较疑惑的地方，会疑惑为什么不把数据直接导入storm中。使用消息队列作为数据中间处理组件的原因是，在大批量数据处理时，前端业务数据产生速度可能会很快，而实时处理或者其他处理速度跟不上，会影响整个系统处理性能，引入消息队列之后，我们可以把数据临时存储在消息队列中，后端处理速度就不会影响前端业务数据的产生，比较专业的术语叫做解除耦合，增加系统扩展性，系统各组件异步运行。

为什么使用MetaQ？

在消息队列选择上，kafka是一个比较通用的，开源时间较长的消息发布订阅系统，而MetaQ是基于kafka开发的，使用我们比较熟悉的Java

最低0.47元/天解锁文章

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。