前言
本文通过阿里的大数据开发治理平台 DataWorks,结合其中的数据建模理论向大家简单介绍一下指标体系构建过程的名词概述及命名规范。
一、数仓术语
1.指标
指标:对业务过程进行数值化的描述;
原子指标:基于业务过程的度量值(可衡量的数值),不可以再进行拆分的指标;
派生指标:对原子指标进行业务统计范围的圈定(原子指标+修饰词+统计周期);
事务性指标:指对业务活动进行衡量的指标;
存量型指标:指对实体对象某些状态的统计,对应的时间周期一般为"历史截止当前某个时间";
复合型指标:在事务性指标和存量型指标的基础上复合而成。
2.数据域
将业务过程或维度进行抽象的集合;
数据域是联系较为紧密的数据主题的集合,是业务对象高度概括的概念层次归类,目的是便于数据的管理和应用。
3.业务过程
业务过程是组织执行的经营活动,例如接受订单、处理保险索赔、注册学员上课或每月对每个帐户进行快照。
业务过程事件生成或收集度量,这些度量转化为事实表中的事实。大多数事实表关注单个业务过程的结果。
选择过程是很重要的,因为它定义了一个特定的设计目标,并允许声明粒度、维度和事实。每个业务过程对应于企业数据仓库总线矩阵中的一行。
业务过程是一个不可拆分的行为事件,业务过程就是企业活动中的时间。
4.业务限定
统计的业务范围,用于筛选出符合业务规则的记录(类似于SQL中where后的条件,不包括时间区间)。
原子指标是计算逻辑的标准化定义,业务限定则是条件限制的标准化定义。
除了统计
二、命名规范
1.指标命名规范
规则:指标命名使用英文简写,其次是英文,当指标英文名太长时,可考虑汉语拼音首字母(中国制造zgzc);
业务过程:用英文活英文缩写或者中文拼音简写;
原子指标:英文名称:动作+度量, 中文名:动作+度量 eg:总人数据(person_num);
时间修饰词;
派生指标:英文名:原子指标英文+时间周期+其他修饰词 中文名:时间周期+其他修饰词+原子指标英文
eg:enter_duration_td/hidden_num_td/hidden_num_td_thanA
2.数据模型命名规范
(1)命名选项
1.{}表示变量 2.[]表示可选填 3.|表示或 4./表示且
(2)同步策略
1.增量(i) 2.全量(f) 3.追加(a) 4.拉链|缓慢变化(z)
(3)数据模型
ods:ods_[业务域_]{业务系统实例名}{业务系统表名}{同步策略}
dwd:dwd_[业务域_]{数据域缩写}{业务过程名称}{同步策略}
dim:dim_[业务域_]{数据域缩写}{实体名称}{模型自定义名称(basic_info)}
dws:dws_[业务域_]{数据域缩写}{粒度}{分析主题名称}{同步策略}
ads:ads[业务域_]{分析域缩写}{分析主题名称}[同步策略]
3.任务命名规范
数据集成:imp_tablename
数据开发:tablename
数据导出:exp_tablename
数据服务:/业务域/tablename
主数据实施主要包含主数据分析、主数据建模、主数据清洗、主数据应用、主数据归档五个部分,通过对主数据全生命周期的管理最终达到对主数据获取、管理、应用、归档的目的。
1、主数据分析:识别主数据、明确主数据的需求、确定主数据范围、确定主数据的源头及数据抽取交互方式。
2、主数据建模:主数据模型规划、主数据模型设计、主数据模型发布等。
3、主数据清洗:对源头方抽取到的主数据进行同步清洗转换的过程。
4、主数据应用:各使用方根据自身的需求对主数据发起使用申请、由主数据管理员主导组织审批、然后经由主数据管理系统分发服务等过程。
5、主数据归档:对主数据的模型、主数据的数据等进行版本控制、版本追溯的过程。
总结
这里是结合阿里的数据建模理论进行描述,可以给我们在数据建模过程中提供参考。如有描述不当或侵犯版权之处烦请指正。