【流式计算】Apache Storm，Apache Spark和Apache Samza

Xminyang

已于 2022-05-27 17:08:56 修改

阅读量462

点赞数

于 2022-05-27 17:02:38 首次发布

本文链接：https://blog.csdn.net/Xminyang/article/details/125006875

版权

计算机技术栈&干货推荐专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文对比了Apache Storm、Spark Streaming及Samza三种实时计算系统。它们均为开源、低延迟且支持分布式处理，但传递模式和状态管理策略各异。Storm采用拓扑结构进行数据处理；Spark Streaming则将数据流划分为小批量进行处理；而Samza则关注于消息级别的处理。

摘要由CSDN通过智能技术生成

Enabling the Real-Time Enterprise with Data Streaming_yyth

✨ 有很多分布式计算系统可以实时或接近实时地处理大数据。本文将从三个Apache框架的简短描述开始，并试图对它们的异同点提供快速、高层次的概述。

▚ 01 Apache Storm

Apache Storm

在Storm中，你可以设计一个称为拓扑结构topology的实时计算图，并将其提交给集群，其中主节点master node负责分发任务，工作节点worker nodes负责执行。在拓扑结构中，数据在spouts（发送表现为元数组tuples形式的数据流，元数组是指不可边的键值对key-value pairs）和bolts（转换数据流，比如计数count、过滤filter等）间传递。bolts本身可以在处理管道processing pipeline中，有选择地向其他bolts发送数据。

在这里插入图片描述

▚ 02 Apache Spark

Spark Structured Streaming | Apache Spark

Spark Streaming（Spark核心API的拓展）并不像Storm那种（每次只处理一个），且支持连续的数据流处理。相反，它在处理前先将其划分为小批量small batches的时间间隔time intervels。Spark对连续数据流的抽象称为DStream(离散流Discretized Stream)。DStream为RDDs（弹性分布式数据集Resilient Distributed Datasets）的微批量micro-batche。RDDs是分布式集合，可以通过任意函数和数据滑动窗口的转换来并行操作。

在这里插入图片描述

2.1 Spark Streaming的工作原理

它首先将固定的时间间隔的数据流作为一个DStream，并形成DStreams，内部为一系列的RDDs。通过Spark API处理RDDs，并批量返回RDDs的操作结果。

在这里插入图片描述
整体的处理框架为：

在这里插入图片描述

▚ 03 Apache Smaza

Samza (apache.org)

分布式流处理框架A distributed stream processing framework。

Samza的流处理方法是在接收到信息时，每次处理一个信息。Samza的流原语不是元组或者DStream，而是一个消息message。流被划分为分区partitions，每个分区是一个有序的只读消息序列，每个消息拥有一个唯一的ID（偏移量offset）。该系统还支持批处理，即从相同的流分区顺序消费多个消息。尽管Samza通常依赖Hadoop的YARN（Yet Another Resource Negotiator）和Apache Kafka。

在这里插入图片描述