大数据平台架构与原型实现-读书笔记4

本文介绍了大数据平台的三种架构——Lambda、Kappa和SMACK,详细阐述了各自的设计思想和优缺点。Lambda架构通过批处理和实时处理分离保证稳定性,Kappa简化了Lambda,统一使用流计算,而SMACK则整合了批处理和实时处理,利用Spark和Cassandra实现了数据处理和存储的统一。此外,还提到了原型项目架构方案,涵盖了数据采集、消息队列、流处理、批处理、数据服务和数据展示的各个环节。
摘要由CSDN通过智能技术生成

第四章 架构与原型

一、大数据平台架构与设计

1、Lambda架构

       Lambda架构师大数据平台里最成熟、最稳定的架构,它的核心思想:将批处理作业和实时流处理作业分离,各自独立运行,资源互相隔离。分层如下:

  • Batch Layer:主要负责所有批处理操作,支撑该层的技术也以Hive、Spark-SQL或Map-Reduce这类批处理技术为主。数据处理依赖的主数据也是该层维护。
  • Serving Layer:以Batch Layer处理的结果数据为基础,对外提供延时的数据查询和ad-hoc查询服务。批处理本身比较慢,无法支撑实时的查询请求,从Serving Layer角度看,Batch Layer 的工作本质上时一种“预结算”,即预先对大体量数据集进行处理,得到相对较小的结果集,然后用Serving Layer接手,提供实时的数据查询服务。Serving Layer既可以使用包括关系型数据库在内的传统技术,也可使用Kylin、Presto、Impala或Druid等大数据OLAP产品。
  • Speed Layer:使用流式计算技术实时处理当前数据,它的局限在于只能处理当前新生成的数据,无法对全部历史数据进行操作。Speed Layer经常使用Storm、Spark Streaming或Flink等大数据流计算框架。

       Lambda脚骨使用两条数据管道来分别对批处理和实时处理两种场景,是很健壮的一种架构。但缺点是需要开发团队针对批处理和实时处理分别进行开发,同时维护两套代码,增加了共工作量和维护成本。

2、Kappa架构

       Kappa架构师对Lambda架构的一种简化,它使用流计算技术统一批处理和实时处理两条数据处理的pip

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值