数据模型篇之阿里巴巴数据整合及管理体系

Listen·Rain

已于 2022-12-16 10:33:05 修改

阅读量973

点赞数

分类专栏：大数据之路书籍阅读文章标签：人工智能大数据云计算

于 2022-12-16 10:14:13 首次发布

本文链接：https://blog.csdn.net/qq_46517733/article/details/128338315

版权

大数据之路书籍阅读专栏收录该内容

15 篇文章 6 订阅

订阅专栏

第9章阿里巴巴整合及管理体系

OneData的设计是为了建设统一的、规范化的数据接人层（ ODS ）和数据中间层（ DWD和DWS ），通过数据服务和数据产品，完成服务于阿里巴巴的大数据系统建设，即数据公共层建设。提供标准化的（ Standard ）、共享的（ Shared ）、数据服务（ Service ）能力，降低数据互通成本，释放计算、存储、人力等资源，以消除业务和技术之痛。

1. OneData体系架构

在这里插入图片描述

业务板块

由于阿里巴巴集团业务生态庞大，所以根据业务的属性划分出几个相对独立的业务板块，业务板块之间的指标或业务重叠性较小。如电商业务板块涵盖淘系、 B2B系和 AliExpess系等。

规范定义

规范定义指以维度建模作为理论基础构建总线矩阵，划分和定义数据域、业务过程、维度、度量原子指标、修饰类型、修饰词、时间周期、派生指标。

在这里插入图片描述

名词术语	解释
数据域	指面向业务分析，将业务过程或者维度进行抽象的集合。其中，业务过程可以概括为一个个不可拆分的行为事件，在业务过程之下，可以定义指标；维度是指度数据域的环境，如买家下单事件，买家是维度。为保障整个体系的生命力，数据域是需要抽象提炼，并且长期维护和更新的，但不轻易变动。在划分数据域时，既能涵盖当前所有的业务需求，又能在新业务进入时无影响地被包含进已有的数据域中和扩展新的数据域
业务过程	指企业的业务活动事件，如下单、支付、退款都是业务过程。请注意，业务过程是一个不可拆分的行为事件，通俗地讲，业务过程就是企业活动中的事件
时间周期	用来明确数据统计的时间范用或者时间点，如最近 30 天、自然周、截至当日等
修饰类型	是对修饰词的一种抽象划分。修饰类型从属于某个业务域，如日志域的访问终端类型涵盖无线端、 PC端等修饰词
修饰词	指除了统计维度以外指标的业务场景限定抽象。修饰词隶属于一种修饰类型，如在日志域的访问终端类型下，有修饰词 PC 端、无线端等
度量/原子指标	原子指标和度自含义相同，基于某一业务事件行为下的度量，是业务定义中不可再拆分的指标，具有明确业务含义的名词，如支付金额
维度	维度是度量的环境，用来反映业务的一类属性，这类属性的集合构成一个维度也可以称为实体对象。维度属于一个数据域，如地理维度（其中包括国家、地区、省以及城市等级别的内容）、时间维度（其中包括年、季、月、周、日等级别的内容）
维度属性	维度属性隶属于一个维度，如地理维度里面的国家名称、同家 ID 、省份名称等都属于维度属性
派生指标	派生指标＝一个原子指标＋多个修饰词（可选）＋时间周期。可以理解为对原子指标业务统计范围的圈定。如原子指标：支付金额，最近1天海外买家支付金额则为派生指标（最近1天为时间周期，海外为修饰词，买家作为维度，而不作为修饰词）

模型设计

（1）指导理论

维度建模理论：基于维度数据模型总线架构，构建一致性的维度和事实。

（2）模型层次
在这里插入图片描述

① 操作数据层（ODS）
功能：同步；结构化；累积历史、清洗
② 公共维度模型层（DM）：明细数据层（DWD）+汇总数据层（DWS）
功能：组合相关和相似数据；公共指标统一加工；建立一致性维度
③ 应用数据层（ DS ）
功能：个性化指标加工；基于应用的数据组装

（3）基本原则

高内聚和低辑合
核心模型与扩展模型分离
公共处理逻辑下沉及单一
成本与性能平衡
数据可回滚
一致性
命名清晰、可理解

2.模型实施

业界常用模型实施过程

（1）Kimball 模型实施过程

高层模型
详细模型
模型审查、再设计和验证
提交 ETL 设计和开发
参考：Ralph Kimball, The DataWarehouse Lifecycle Toolkit

（2）Inmon 模型实施过程

三个层次：
ERD (Entity Relationship Diagram ，实体关系图）层
DIS (Data Item Set 数据项集）层
物理层（Physical Model ，物理模型）
参考：Inmon, Building the Data Warehouse

（3）其他模型实施过程

业务建模，生成业务模型
领域建模，生成领域模型
逻辑建模，生成逻辑模型
物理建模，生成物理模型

OneData模型实施过程
（1）指导方针

首先，在建设大数据数据仓库时，要进行充分的业务调研和需求分析。
其次，进行数据总体架构设计，主要根据数据域对数据进行划分；按照维度建模理论，构建总线矩阵、抽出业务过程和维度。
再次，对报表需求进行抽象整理出相关指标体系，使用 OneData 工具完成指标规范定义和模型设计。
最后，就是代码研发和运维。

（2）实施工作流
OneDatade的实施过程是一个高度迭代和动态的过程，一般采用螺旋式实施方法。
在这里插入图片描述