资料:数仓构建流程 - 大数据开发治理平台 DataWorks - 阿里云
目录
一、什么是Onedata
从规范定义、数据模型、数据研发到数据服务,可管理、可追溯,规避重复建设,提供标准的、共享的、服务化的数据,整体的一套大数据建设方法论;
二、几个重要概念
名词 | 解释 |
数据域 | 数据域是业务板块中有一定规模且相对独立的数据业务范围。 面向业务分析,将业务过程或者维度进行抽象的集合。 为保障整个体系的生命力,数据域是需要抽象提炼、并且长期维护和更新的, 但不轻易变动。 在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响的被包含进已有的数据域和扩展新的数据域。 |
业务过程 | 业务过程是指企业的业务活动事件,如下单、支付、退款都是业务过程。 请注意业务过程是一个不可拆分的行为事件,通俗讲业务过程就是企业活动中的事件。 |
时间周期 | 用来明确数据统计的时间范围或者时间点,如最近30天、自然周、截至当日等。 |
修饰类型 | 是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志域的访问终端类型 涵盖无线端、PC端等修饰词。(wise移动端, swan小程序端) |
修饰词 | 指除了统计维度以外指标的业务场景限定抽象。修饰词隶属于一个修饰类型, 如日志域的访问终端类型下,有修饰词PC端、无线端等。 |
名词 | 解释 |
原子指标/度量 | 基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的 名词。原子指标=业务过程(动作)+度量,如支付(事件)金额(度量)。 |
派生指标 | 派生指标=一个原子指标+多个修饰词(可选)+时间周期。可以理解为对原子指标业务 统计范围的圈定。如原子指标:支付金额,最近1天海外买家支付金额则为派生指标 (最近1天为时间周期,海外为修饰词,买家作为维度而不作为修饰词)。 |
维度 | 维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为 实体对象。维度属于一个数据域,如地理维度(其中包括国家、地区、省以及城市等级别的 内容)、时间维度(其中包括年、季、月、周、日等级别的内容)。 |
维度属性 | 维度属性隶属于一个维度,如地理维度里面的国家名称、国家ID、省份名称等‘ 都属于维度属性。 |
三、核心架构
注:
(1)原子指标、修饰词,直接归属在业务过程下
(2)派生指标可以选择多个修饰词,修饰词之间的关系为‘或’或者‘且’的关系,具体由具体的派生指标语义决定。
四、数据模型
1、建立数据模型的好处
能够对数据进行有序、有结构的分类组织和存储,在统一算法的口径的基础上,还能够避免重复计算,而且取用比较方便。
2、模型层次(数仓的分层)
3、模型设计方法
DWD层:
明细事实表的设计可以分为四个步骤:选择业务过程、确定粒度、选择维度、确定事实(度量)
注意思考几个问题:
DWS层:
步骤:确定粒度-> 选择维度-> 选择指标
注意思考几个问题:
(1)指标分类:事务性指标、存量型指标、衍生类(比率型,排名,比较/均值型)的不同
五、实施流程(重点)