如何设计数据模型?
数据模型是依据明确的业务关系,建立基于维度、事实表以及相互间连接关系的模型,实现多角度、多层次的数据查詢和分析。如何设计出稳定、易扩展、高可用的数据模型来支持用户消费对数据主题联接至关重要。
多维模型设计有4个主要步骤,包括确定业务场景、声明粒度、维度设计和事实表设计。
(1)确定业务场景
分析业务需求,识别需求中所涉及的业务流及其对应的逻辑数据实体和关联关系。如业务负责人(PO)履行全流程可视,首先需要识别监控的具体业务环节(如发货、开票等),再根据这些业务环节识别其对应的逻辑数据实体及关联关系。
(2)声明粒度
粒度表示数据单元的细节程度或综合程度,细节程度越高,粒度越细:细节程度越低,粒度越粗。声明粒度是维度和事实表设计的重要步骤,声明粒度意味者精确定义事实表的每一行表示什么。
(3)维度设计
维度是用于观察和分析业务数据的视角,支持对数据进行汇聚、钻取、切片分析。维度由层次结构(关系)、层级、成员、属性组成。维度可以分为基础树和组合树,维度基础树提供统一定义的、完整的层级结构和成员;维度组合树根据业务使用场景进行定制。
维度设计需要满足单一性、单向性和正交性。
1、单一性:有且仅有一个视角,在同一个维度中不能穿插其他经营分析的视角,例如,区域维不含客户视角,产品维不含客户视角等。
2、单向性:“上大下小”,维度只能支撑自上而下的分解和自下而上的收敛,每个成员只能存在向上的收敛路径,不能具备向上和向下两个方向的收敛逻辑。
3、正交性:成员两两不相交,同一成员不能同时拥有多个上级成员,以产品维为例,华为向客户提供的设备或服务都只能被准确地分配到唯一叶子(最底层)节点,并以此路径进行收敛。
(4)事实表设计
事实表存储业务过程事件的性能度量结果,由粒度属性、维度属性、事实属性和其他描述属性组成,如图所示。
粒度属性是事实表的主键,通常由原始数据的主键或一组维度属性生成。
维度属性是从维度中继承的属性,可以只继承主键作为事实表的外键,也可以继承维度中全部或其他部分的属性。在上述例子中,事实表中除了有币种ID,还可以带有币种编码和币种名称等属性。
•事实属性是可以对该颗粒度的事实进行定量的属性,大多数的事实表包括一个或多个事实字段。
•同一事实表中不能存在多种不同粒度的事实,比如PO行明细事实表中不应该包含PO总金额,否则PO 总金额累加时会出现错误。