流式大数据处理的三种框架：Storm，Spark和Samza

最新推荐文章于 2024-07-02 10:34:50 发布

大数据和云计算

最新推荐文章于 2024-07-02 10:34:50 发布

阅读量389

点赞数

分类专栏：大数据 python 数据分析 it资讯前端 java 文章标签：大数据人工智能编程语言程序员

本文链接：https://blog.csdn.net/dagiai/article/details/90244871

版权

本文对比了Apache Storm, Spark Streaming和Samza三种流式处理框架。Storm通过拓扑结构进行实时计算，Spark Streaming采用微批处理的DStream，而Samza按消息处理数据流。三者都是分布式、低延迟且容错的，提供了简单的API。Storm适合高速事件处理，Spark适用于有状态计算和实时决策，Samza擅长处理大量状态数据。" 132784446,18784123,模拟退火算法在单层巡逻火灾预警的应用,"['模拟退火算法', 'Matlab', '算法应用', '火灾预防', '组合优化']

摘要由CSDN通过智能技术生成

本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。

Apache Storm

在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑(topology)。这个拓扑将会被提交给集群，由集群中的主控节点(master node)分发代码，将任务分配给工作节点(worker node)执行。一个拓扑中包括spout和bolt两种角色，其中spout发送消息，负责将数据流以tuple元组的形式发送出去;而bolt则负责转发数据流，在bolt中可以完成计算、过滤等操作，bolt自身也可以随机将数据发送给其他bolt。在storm中，每个都是tuple是不可变数组，对应着固定的键值对。

Apache Spark

Spark Streaming是核心Spark API的一个扩展，它并不会像Storm那样一次一个地处理数据流，而是在处理前按时间间隔预先将其切分为一段一段的批处理作业。Spark针对持续性数据流的抽象称为DStream(DiscretizedStream)，一个DStream是一个微批处理(micro-batching)的RDD(弹性分布式数据集);而RDD则是一种分布式数据集，能够以两种方式并行运作，分别是任意函数和滑动窗口数据的转换。

最低0.47元/天解锁文章

大数据和云计算

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
流式大数据处理的三种框架：Storm，Spark和Samza

本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。Apache Storm在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑(topology)。这个拓扑将会被提交给集群，由集群中的主控节点(master node)分发代码，将任务分配给工作节点(worker node)执行。一个拓扑中包括spout和bolt两种角色，其中spout发送消息，负责...
复制链接

扫一扫

专栏目录