大数据中台架构以及建设全流程二（Daas层设计）

最新推荐文章于 2024-11-17 07:39:11 发布

只会写demo的程序猿

最新推荐文章于 2024-11-17 07:39:11 发布

阅读量3.7k

点赞数 3

分类专栏：数仓文章标签： big data 架构 hadoop

本文链接：https://blog.csdn.net/qq_35338741/article/details/121716290

版权

数仓专栏收录该内容

5 篇文章

订阅专栏

背景

1：数据存在孤岛，烟囱式开发。导致指标混乱，重复开发，数据冗余。

2：数据分布在不同数据库或者所有都杂在一起，层次不清晰。

3：数据没有沉淀，很多时候重复计算导致数据冗余

4：定义不规范，没有统一规范。

这个时候数仓就应运而生。

面临问题解决方案

表命名逻辑不清晰逻辑分层（约定表名）

数据孤岛，烟囱式开发维度建模（主题域划分，沉淀中间结果）

找表难数据地图（查看表，元数据，数据血缘关系）

指标定义混乱，存在重复指标字典（命名规范管理，统一口径规则） DB表全量同步，效率低下增量表（设计拉链表，订阅Binlog日志）

各部门自建数仓共享数仓（共享DW层，自建DM层）

数仓架构演进

经典数仓架构----------------------->1990年提出的数仓概念

随着数据量急速增多演变如下

离线大数据架构-------------------->互联网时代数据量爆炸，且诞生了很多大数据工具

随着实时需求的增加演变如下

lambda架构------------------------->在原有功能上增加了实时的功能

因为业务需求以及希技术栈统一演变如下

kappa架构---------------------------->流批一体，业务核心转向实时

离线数仓架构

核心就是通过离线方式将数据导入数仓中。数据处理方式常用的就是MR，HSql，SparkSql以及一些集成组件比如DataX，kettle，Sqoop等。

案例

Lambda数仓架构

案例

问题点

1：同样的需求开发维护两套代码逻辑，批和流两套逻辑代码都需要开发和维护，并且需要维护合并的逻辑，需同时上线。

2：资源浪费，同样的计算逻辑计算两次，整体资源占用会增多。

3：数据具有二义性：两套计算逻辑，实时数据和批量数据容易对不上。准确性难以分辨，且不好排查。

Kappa数仓架构

Lambda架构解决了实时性的问题，随着业务的发展，很多业务都以实时性为主，再加上Flink等引擎的成熟，为了解决Lamdba架构的问题，提出了Kappa架构。

Lambda vs Kappa

架构选型

实际上大部分公司还是会采用Lambda架构，并不是很多任务需要很实时，而且有些财力人力不支持。

数仓整体架构（图片来自网络）

数仓分层架构（图片来自网络）

1、ods：操作数据层（Operational Data Store），脏数据清理，加密数据等，全量数据存储。

2、dwd：明细数据层（Data Warehouse Detail），维度合并实时表，提高明细表易用性。稳定的维度可以选择退化，异变的选择不退化。或者只保留维度组件采用星型模型。

3、dwm：中间层层（Data Warehouse Middle），可有可无，根据实际情况创建。存储中间过程数据。

4、dws：汇总数据层（Data Warehouse Summary），数据大宽，构建公共指标体系。

5、ads：应用数据层（Application Data Store）个性化产品指标数据

6、dim，维度数据层

主题域划分

可以按照如下方式划分2主题域

负责人:xxx 时间:2021-xx-xx xx xx
	业务主题数据主题		全平台	中台	表单	小程序	App	...
张三	交易	新增卖家	√	√	√	√	√
		新增买家	√	√	√	√	√
		交易额	√	√	√	√	√
李四	用户	注册用户	√	√		√	√
李四	用户	活跃用户	√	√			√
王五	产品	设备		√	√
		物料		√	√
		备件		√	√

维度建模

strep1：数据调研，需求分析（确定业务模块，数据域。比如用户域，产品域，交易域）

strep2：构建维度*事实总线矩阵（明确业务过程（业务总做，比如点检，保养，开关机，商品场景下的下单，支付等），业务过程与维度之间关系）

step3：维度*事实模型设计（构建dw事实明细表，DM主题明细）

step4：明确统计指标

原子指标=业务过程+度量比如登陆人数，支付订单数，执行开关机操作人数

派生指标=时间周期+修饰词+原子指标，比如最近七天全平台登陆人数，最近一天执行开关机操作人数。最近一个月App端登陆人数

step5：Ads层指标结果表设计，一般在关系型数据库或者Nosql数据库等查询比较快的DB

维度总线矩阵构建方式如下

负责人:xxx 时间:2021-xx-xx xx xx	一致性维度
	维度数据域*业务过程		省市区	销售渠道	性别	行业分类	...
张三	设备	开关机	√	√		√	√
		点检	√	√		√	√
		保养	√	√		√	√
李四	用户	注册用户	√	√		√	√
李四	用户	活跃用户	√	√		√	√
王五	产品	设备	√	√		√
		物料	√	√		√
		备件	√	√		√

需求标准化

标准化流程

维度及指标规范管理

派生指标=时间周期+修饰词+原子指标

举个栗子：过去一个月App端登录用户数 = 过去一个月（时间周期）+App端+登陆人数

日期周期：派生指标的日期聚合粒度；如：当天，过去7天，过去30天，其中以「当天」最为普遍

修饰词：用于对原子指标的修饰，包含对业务的修饰、场景修饰等；如：阿里、手机、回收都属于

修饰词

原子指标：指标的最细颗粒度描述，规则为：业务动作+度量值；如：支付+订单数=支付订单数

指标管理流程图

数仓建库表规范

如果数据量非常大，每一层表很多。则根据数仓分层建库，比如dw_公司名_dim，dw_公司名_dwd，dw_公司名_ods。每一层一个库。

如果表并不多，其实也可以把所有层的放到一个库里面。根据表明区别层级。

业务规范	数据模型层次	数据库名字	含义	物理表命名规范	数据存储格式	样例
业务数据	ODS	dw_xxx_ods	数据贴源层，数据从各业务数据库来。保持不变	ods_数据源_更新方式_时间粒度	Text	ods_mysql_inc_1d/ods_mysql_full_1d
数据仓库	DWD	dw_xxx_dwd	经过etl后的基础事实明细表	dwd_数据源_业务过程_更新方式_时间粒度如果是多数据源聚合而得 dwd_业务过程_更新方式_时间粒度	Parquet+snappy	dwd_msql_login_inc_1d
	DWM	dw_xxx_dwm	根据业务主题分析的中间过程表	dwm_业务主题_更新方式_时间粒度
	DIM	dw_xxx_dim	维度字典	dim_维度类型_更新方式_时间粒度	Text	dim_city_full_1d
数据集市	DWS	dw_xxx_dws	按数据/主题专题进行分析的轻度汇总数据	dws_业务主题域_业务过程_更新方式_时间粒度	Parquet+snappy	dws_eqp_check_full_1d(设备主题，维修过程)
数据产品	ADS	dw_xxx_ads	数仓提供给业务方使用的数据，可直接同步dws层也可以再通过dws聚合而来	ads_业务主题域/数据主题域_业务过程_更新方式_时间粒度	Text/Parquet	ads_运营数据分析_full_30d