大数据平台架构与原型实现-读书笔记4

最新推荐文章于 2022-05-19 14:00:34 发布

baidu_38792549

最新推荐文章于 2022-05-19 14:00:34 发布

阅读量619

点赞数

分类专栏：数据平台架构文章标签：数据库

本文链接：https://blog.csdn.net/baidu_38792549/article/details/120266388

版权

本文介绍了大数据平台的三种架构——Lambda、Kappa和SMACK，详细阐述了各自的设计思想和优缺点。Lambda架构通过批处理和实时处理分离保证稳定性，Kappa简化了Lambda，统一使用流计算，而SMACK则整合了批处理和实时处理，利用Spark和Cassandra实现了数据处理和存储的统一。此外，还提到了原型项目架构方案，涵盖了数据采集、消息队列、流处理、批处理、数据服务和数据展示的各个环节。

摘要由CSDN通过智能技术生成

第四章架构与原型

一、大数据平台架构与设计

1、Lambda架构

Lambda架构师大数据平台里最成熟、最稳定的架构，它的核心思想：将批处理作业和实时流处理作业分离，各自独立运行，资源互相隔离。分层如下：

Batch Layer：主要负责所有批处理操作，支撑该层的技术也以Hive、Spark-SQL或Map-Reduce这类批处理技术为主。数据处理依赖的主数据也是该层维护。
Serving Layer：以Batch Layer处理的结果数据为基础，对外提供延时的数据查询和ad-hoc查询服务。批处理本身比较慢，无法支撑实时的查询请求，从Serving Layer角度看，Batch Layer 的工作本质上时一种“预结算”，即预先对大体量数据集进行处理，得到相对较小的结果集，然后用Serving Layer接手，提供实时的数据查询服务。Serving Layer既可以使用包括关系型数据库在内的传统技术，也可使用Kylin、Presto、Impala或Druid等大数据OLAP产品。
Speed Layer：使用流式计算技术实时处理当前数据，它的局限在于只能处理当前新生成的数据，无法对全部历史数据进行操作。Speed Layer经常使用Storm、Spark Streaming或Flink等大数据流计算框架。

Lambda脚骨使用两条数据管道来分别对批处理和实时处理两种场景，是很健壮的一种架构。但缺点是需要开发团队针对批处理和实时处理分别进行开发，同时维护两套代码，增加了共工作量和维护成本。

2、Kappa架构

Kappa架构师对Lambda架构的一种简化，它使用流计算技术统一批处理和实时处理两条数据处理的pip

最低0.47元/天解锁文章

baidu_38792549

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据平台架构与原型实现-读书笔记4

第四章架构与原型一、大数据平台架构与设计1、Lambda架构2、Kappa架构3、SMACK架构二、原型项目业务背景三、原型项目架构方案1、数据采集2、消息队列3、流处理4、批处理5、主数据管理6、数据服务7、数据展示四、原型项目工程结构五、部署原型项目1、配置服务器2、构建与部署3、最小化增量部署...
复制链接

扫一扫