数据处理架构

可以睡到中午吗

于 2023-12-14 14:42:38 发布

阅读量473

点赞数 11

文章标签：架构数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_57182209/article/details/134995149

版权

目录

Lambda架构

Lambda架构由Twitter的首席科学家Nathan Marz提出。这种架构试图平衡延迟、吞吐量、容错性和系统复杂性四个方面，以满足大数据和实时数据处理的需求。Lambda架构主要由三个层次组成：

批处理层（Batch Layer）：负责处理大量的历史数据，生成批处理视图。
速度层（Speed Layer）：负责处理最新的数据，生成实时视图。
服务层（Serving Layer）：负责将批处理视图和实时视图合并，提供最终的数据视图。

这种架构的主要优点是能够处理大规模的数据，并能对新数据进行实时处理。但是，由于需要维护两种处理机制（批处理和实时处理），所以系统的复杂性也相对较高，缺点如下：

1)同样的需求需要开发两套一样的代码

这是 Lambda 架构最大的问题，针对同一个需求需要开发两套代码，一个在批处理引擎上实现，一个在流处理引擎上实现，在写好代码后还需构造数据测试保证两者结果一致，另外，两套代码对于后期维护也非常麻烦，一旦需求变更，两套代码都需要修改，并且两套代码也需同时上线。

2)集群资源使用增多

同样的逻辑需要计算两次，整体占用资源会增多。虽然离线部分是在凌晨运行，但是有可能任务多，在凌晨时造成集群资源使用暴增，报表产出效率就有可能下降，报表延迟对后续展示也有影响。

3)离线结果和实时结果不一致

在此架构中经常我们看到次日统计的结果比昨晚的结果要少，原因就在于次日统计结果和昨日统计结果走了两条线的计算方式：次日统计结果是按照批处理得到了更为准确的批量处理结果。昨晚看的结果是通过流式运行的结果，依靠实时链路统计出的实时结果（实时结果统计累加），牺牲了部分准确性。对于这种来自批量和实时的数据结果对不上的问题，无解。

4)批量计算 T+1 可能计算不完

随着物联网时代的到来，一些企业中数据量级越来越大，经常发现夜间运行批量任务已经无法完成白天 20 多个小时累计的数据，保证早上上班前准时出现数据已成为部分大数据团队头疼的问题。

5)服务器存储大

由于批流两个过程都需要将数据存储在集群中，并且中间也会产生大量临时数据，会造成数据急速膨胀，加大服务器存储压力。

Kappa架构

Kappa架构由LinkedIn的数据工程师Jay Kreps提出。Kappa架构是对Lambda架构的一种简化，它只有一个处理层——实时处理层。

在Kappa架构中，所有的数据都被视为实时数据流，通过实时处理系统进行处理。当需要处理历史数据时，只需要将历史数据重新注入到数据流中即可。

Kappa架构的主要优点是架构简单，只需要维护一种处理机制，降低了系统的复杂性。同时，由于所有数据都是实时处理，所以能够实现更低的数据处理延迟。但是，这种架构也有其局限性，比如处理大规模的历史数据时可能会面临一些挑战

可以睡到中午吗

关注

11
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
数据处理架构

在此架构中经常我们看到次日统计的结果比昨晚的结果要少，原因就在于次日统计结果和昨日统计结果走了两条线的计算方式：次日统计结果是按照批处理得到了更为准确的批量处理结果。这是 Lambda 架构最大的问题，针对同一个需求需要开发两套代码，一个在批处理引擎上实现，一个在流处理引擎上实现，在写好代码后还需构造数据测试保证两者结果一致，另外，两套代码对于后期维护也非常麻烦，一旦需求变更，两套代码都需要修改，并且两套代码也需同时上线。Kappa架构的主要优点是架构简单，只需要维护一种处理机制，降低了系统的复杂性。
复制链接

扫一扫

可以睡到中午吗 CSDN认证博客专家 CSDN认证企业博客

码龄3年

78: 原创

114万+: 周排名

6万+: 总排名

3万+: 访问

: 等级

899: 积分

41: 粉丝

115: 获赞

17: 评论

48: 收藏

私信

关注

热门文章

分类专栏

设计模式 7篇
java基础 8篇
报错 4篇
系统设计 1篇
题 1篇

最新评论

MAC如何在根目录创建文件
瑞哥: 不管用，我换m3后不行了，不知策略里是哪一条
StringSubstitutor
小林_sxxzlt: maven引入是下面这个  <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-text</artifactId> <version>1.12.0</version> </dependency>
算法题中nextInt(),nextLine()的易错陷阱
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
数据处理架构
白话机器学习: 优质好文，博主的文章细节到位，内容干货很多，感谢博主的分享，期待博主持续带来更多好文！
关于DNS的一些认识
周乙.: 缓存IP地址是不是在第一次之后的地址

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。