大数据平台实时数仓从0到1搭建之 - 02 架构设计

模拟业务需求

统计公司销售情况,需要统计截止到统计当时的年度、季度、月度的销售情况。包含当天的数据。
实时大屏展示

架构选型

lambda架构

lambda架构我看网上有很多介绍,我理解的就是,以离线为主,实时为辅的模式,如下图,
1、假设我每天凌晨跑昨天的数据,那我离线批处理的数据范围就截止到昨天23:59:59,这部分数据获取过来以后进入离线数仓,
2、然后实时处理从凌晨0点开始获取今天的数据,并实时更新回离线数仓,那离线数仓的数据就是实时的数据,想看什么指标,也是最新的数据情况,但是实时处理并不能百分之百的数据准确性
3、然后到第二天,批处理再覆盖昨天的实时处理情况,这样一来,数据就能完全保证质量。
在这里插入图片描述

Kappa架构

Kappa架构 网上介绍也不少,我理解的就是,所有数据存储到消息队列里,用到哪一部分数据,就从哪一部分开始,从头开始走一遍实时处理。
比如说我每天正常处理实时数据,突然有个需求要看最近半年的一个指标,那就从新开一个kafka消费者,从半年前开始从头走一遍flink。
在这里插入图片描述

lambda & Kappa 对比

lambdaKappa
优点1、架构简单明了
2、数据稳定可控
1、维护一个框架,方便
缺点1、维护实时离线两个框架,稍微有些费时费力
1、数据存储在消息中间件,容易丢数据
或遇到存储瓶颈

这次就选择lambda架构模型,简单明了,数据可控,容易理解

框架选择

类型框架
数据存储Hdfs、Hive、Hbase、Mysql
消息队列Kafka
协调系统Zookeeper
计算框架Mapper-Reduce(离线),Flink(实时)
调度DolphinScheduler
数据同步工具Datax
其他待加

环境枚举

名称版本包名下载地址
LinuxCentos 7CentOS-7-x86_64-DVD-1810.iso
JDK1.8jdk-8u181-linux-x64.tar.gz
scala2.11scala-2.11.12.ziphttps://www.scala-lang.org/download/2.11.12.html
Hadoop3.2.1hadoop-3.2.1.tar.gzhttps://hadoop.apache.org/release/3.2.1.html
Hive3.1.2apache-hive-3.1.2-bin.tar.gzhttps://downloads.apache.org/hive/hive-3.1.2/
Hbase1.4.13hbase-1.4.13-bin.tar.gzhttp://archive.apache.org/dist/hbase/1.4.13/
Mysqlmariadb 10.3mariadb-10.3.31-linux-x86_64.tar.gzhttps://downloads.mariadb.org/mariadb/10.3.31/
Zookeeper3.5.8apache-zookeeper-3.5.8-bin.tar.gzhttps://archive.apache.org/dist/zookeeper/zookeeper-3.5.8/
Kafka2.4.1kafka_2.11-2.4.1.tgzhttps://archive.apache.org/dist/kafka/2.4.1/
Flink1.13flink-1.13.2-bin-scala_2.11.tgzhttps://flink.apache.org/downloads.html
DolphinScheduler1.3.2apache-dolphinscheduler-incubating-1.3.2-dolphinscheduler-bin.tar.gzhttps://dolphinscheduler.apache.org/zh-cn/download/download.html
Dataxdatax.tar.gzhttp://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

收尾

如果搭建过程中有什么不合理的地方,还希望路过的大佬及时指出。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
上百节课视频详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 本课程采用由浅入深,层层递进的讲解方式, 让你轻松掌握企业级数仓架构搭建及使用, 使用该架构可以胜任企业级实时数仓和离线数仓构建。 课程内容: 1. 项目背景介绍 2. 数据建模应用 3. 基于Kylin的OLAP分析 4. 需求分析与项目设计 5. 订单与销售额指标计算 6.行为指标计算 7.Druid的安装和使用 8.流式数仓实现 适用人群: 1、对企业级数据仓库构建感兴趣,有一定大数据基础。 2、对目前职业有进一步提升要求,希望从事数据行业高薪工作的在职人员。 3、对数据行业感兴趣的相关人员。 基础课程主讲内容包括: 阶段一:千亿级实时数仓项目总体介绍 1. 数据仓库在企业里面的重要性 2. 千亿级实时数仓的项目演示 阶段二: 数据建模的应用 1. 为什么要数据建模 2. 维度和指标的概念 3. 指标和维度建模案例 阶段三. 数据仓库从0到1的过程 1. 数仓典型分层思想(ODS、DWB、DWS、DM、ADS) 2. 数仓建设0到1的过程实战 3. 企业级数据仓库设计的规范 阶段四:基于Kylin的OLAP分析 1. Kylin自带的example案例介绍 2. Kylin的Cube创建 3. Kylin的数据膨胀介绍 阶段五:需求分析与项目设计 1. 需求分析 2. canal搭建 3. canal数据写入kafka 阶段六:订单与销售额指标计算 1. 销售额指标体系介绍 2. flink实时消费Kafka订单数主题数据 3. 订单金额指标统计 阶段七:行为指标计算 1. 模拟通过埋点方式采集行为数据 2. 使用Flink Streaming计算用户行为相关指标 3. Flink CEP实现转化率分析 阶段八: Druid的安装和使用 1. Druid实时数据摄入 2. Druid基于JSON查询语法 3. Imply Pivot可视化数据分析
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值