目录
1、 概述
为更好地管理数据中台表和字段的命名规范,有效地存储和使用数据,保证数据间的一致性,制定此规范。
2、 数据建模规范
2.1 数据分层规范
结合业务场景和数据场景,泰康数据中台分为数据引入层(ODS),公共维度层(DIM),明细数据层(DWD),汇总数据层(DWS)以及应用层(ADS)五层,各个分层的功能介绍如下:
\1. ODS(Operational Data Store)数据引入层
ODS层用于接收并处理需要存储至数据仓库系统的原始数据,其数据表的结构与原始数据所在的数据系统中的表结构一致,是数据仓库的数据准备区。ODS层的数据表,命名必须以ODS开头,并且生命周期为366天。
ODS层对原始数据的操作具体如下:
· 将原始的结构化数据增量或全量同步至数据仓库中。
· 将原始的非结构化数据(例如,日志信息)进行结构化处理,并存储至MaxCompute。
· 根据实际业务需求,记录原始数据的历史变化或对原始数据进行简单的清洗。
\2. DIM(Dimension)公共维度层
DIM层使用维度构建数据模型。基于实际业务,通过定义维度,确定维度主键,添加维度属性,关联不同维度等操作,构建整个企业的一致性数据分析维表,降低数据计算口径和算法不统一的风险。
\3. DWD(Data Warehouse Details)明细数据层
DWD层通过企业的业务活动事件构建数据模型。基于具体业务事件的特点,构建最细粒度的明细数据表。结合企业的数据使用特点,将明细数据表的某些重要维度属性字段适当冗余,即宽表化处理。同时,也可以减少明细数据表与维度表的关联,提高明细表的易用性。
\4. DWS(Data Warehouse Summary)汇总数据层
DWS层通过分析的主题对象构建数据模型。基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表。
例如,从ODS层中对用户的行为做一个初步的归类汇总,抽象出来一些通用的维度,假设维度为时间、IP、ID,并根据这些维度统计出相关数据,比如用户每个时间段在不同登录IP购买的商品数。则在DWS层可以进一步添加一层轻度的汇总,可以让计算更加的高效。例如在此基础上计算仅7天、30天、90天的行为会节省很多时间。
\5. ADS(Application Data Service)应用数据层
ADS层用于存放数据产品个性化的统计指标数据,输出各种报表。
例如,某电商企业,在6月9日至6月19日,杭州地域出售的各大球类商品的数量及排行情况。
2.2 公共层业务领域划分
数据域与业务过程通常位于公共层,根据业务类别、数据来源、数据用途等多个维度,对公共层数据进行区域及区域下业务活动进行划分。
2.2.1 数据域
数据域是联系较为紧密的数据主题的集合,通常是根据业务类别、数据来源、数据用途等多个维度,对企业的业务数据进行的区域划分,将同类型数据存放在一起,便于您快速查找需要的内容。具体数据域划分见【*附件1*】。
数据域的主要参数如下:
*参**数* | *描述* |
---|---|
*英文缩写* | 业务过程的英文缩写。英文缩写由小写英文字母、数字、下划线(_)组成,并且以小写英文字母开头,最大长度为128字符。 |
*英文名* | 业务过程的英文名称。英文名称由英文字母、数字、下划线(_)、and(&)组成,并且以英文字母或数字开头,最大长度为2048字符。 |
*中文名* | 业务过程的中文名称由中文、英文字母、数字、下划线(_)、and(&)、英文括号组成,并且由中文、英文字母或数字开头,最大长度为2048字符。 |
*数据域* | 选择业务过程所属的数据域。 |
*父级业务过程* | 可选参数。您可以选择配置新建的业务过程归属于某个父级业务过程。如果不配置该参数,则新建的业务过程即为父级业务过程。 |
*负责人* | 创建业务过程的负责人。系统创建的业务过程负责人为****system****。 |
*备注* | 业务过程的备注信息,最大长度为2048字符。 |
2.2.2 业务过程
业务过程是企业在指定的数据域中所执行的业务活动,是数据建模所需要分析的逻辑主体。具体业务过程设计见【附件2】。
业务过程的主要参数如下