【Storm】流式大数据处理的三种框架Storm、Spark和Samza

最新推荐文章于 2023-12-25 00:32:30 发布

玄苦大师233

最新推荐文章于 2023-12-25 00:32:30 发布

阅读量615

点赞数 1

分类专栏： 16. Storm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenguolinblog/article/details/90664944

版权

本文对比了Apache Storm、Spark Streaming和Samza这三种实时大数据处理框架。Storm通过拓扑结构进行实时计算，消息传递为tuple形式；Spark Streaming采用微批处理的DStream，数据抽象为RDD；Samza则按消息处理，依赖Kafka和Yarn。三种框架都具备低延迟、可扩展性和容错性，提供了分布式并行运行任务的API。

摘要由CSDN通过智能技术生成

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。

一. Apache Storm

在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）

这个拓扑将会被提交给集群，由集群中的主控节点（master node）分发代码，将任务分配给工作节点（worker node）执行。

一个拓扑中包括spout和bolt两种角色，其中spout发送消息，负责将数据流以tuple元组的形式发送出去；而bolt则负责转换这些数据流，在bolt中可以完成计算、过滤等操作，bolt自身也可以随机将数据发送给其他bolt。由spout发射出的tuple是不可变数组，对应着固定的键值对。

二. Apache Spark

Spark Streaming是核心Spark API的一个扩展，它并不会像Storm那样一次一个地处理数据流，而是在处理前按时间间隔预先将其切分为一段一段的批处理作业。

Spark针对持续性数据流的抽象称为DStream（DiscretizedStream&

最低0.47元/天解锁文章

玄苦大师233

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【Storm】流式大数据处理的三种框架Storm、Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。一. Apache Storm在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）这个拓扑将会被提交给集群，由集群中的主控节点（master node）分发代码，将任务分配给工作节点（worker node）执行。一个拓扑中包括...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。