Lambda架构的三层批处理层加速层服务层

最新推荐文章于 2024-10-20 10:54:25 发布

Chief395

最新推荐文章于 2024-10-20 10:54:25 发布

阅读量1.2k

点赞数 3

文章标签：架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lpw_cn/article/details/139272202

版权

Lambda架构是一种大数据处理架构，由Nathan Marz提出，它旨在处理大规模数据的批处理和实时处理问题。Lambda架构试图提供一种既能处理大量数据，又能提供低延迟查询和视图的系统。它主要由以下三层组成：

1. 批处理层（Batch Layer）

批处理层的目的是处理大量的历史数据。这一层负责存储和管理原始数据的不变性版本，并运行预定义的批处理作业来预计算结果。这些批处理作业通常是高延迟的（可能需要几分钟到几小时不等），但可以处理非常大的数据集，并确保数据的完整性和准确性。

批处理层通常使用分布式文件系统（如HDFS）来存储数据，并使用大数据处理框架（如Hadoop MapReduce或Apache Spark）来进行计算。

2. 加速层（Speed Layer）

速度层的主要目的是处理实时数据流，以便系统能够提供低延迟的数据视图。由于批处理层有较高的延迟，速度层补充了这一点，通过实时处理最近的数据更新来提供近乎实时的视图。速度层的输出通常是不完整的，并且只代表自上一次批处理作业以来发生的数据。

这一层通常使用流处理技术（如Apache Storm、Apache Flink或Kafka Streams）来处理即时数据流。

3. 服务层（Serving Layer）

服务层的作用是为用户查询提供响应。它将批处理层预计算的结果与速度层实时计算的结果合并，以提供一个全面的数据视图。服务层需要能够快速更新和查询，因此通常使用如NoSQL数据库（如Apache HBase或Cassandra）来支持这种需求。

在查询时，服务层会同时访问批处理层的预计算视图和速度层的实时视图，并将两者的结果合并以提供最终的查询结果。

Lambda架构的挑战

尽管Lambda架构在处理大规模数据系统的同时提供了批处理和实时处理的能力，但它也带来了一些挑战，如：

复杂性：维护两套逻辑（批处理和实时处理）增加了系统的复杂性。
数据延迟：批处理层可能会导致数据处理的延迟。
资源消耗：运行两个系统（批处理和实时处理）需要更多的资源。

为了解决这些挑战，出现了一些替代架构，如Kappa架构，它只使用一个处理系统来处理实时数据流，同时也用于生成历史数据视图，从而减少了复杂性和资源消耗。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。