大数据建设方法论的核心:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理性、可追溯、可规避重复建设。
<>
建设统一的、规范的数据接入层和中间层,完成数据公共层建设,提供标准化的、共享的、数据服务能力,降低成本等。
9.1 体系架构图
9.2 名词术语
- 数据域:指面向业务分析,将业务过程或者维度进行抽象的集合。是要抽象提炼,并且长期维护和更新的,不轻易变动。如交易域、商品域、会员域
- 业务过程:一个个不可拆分的行为事件(企业活动中的事件)。如下单、支付、退款(交易域),发布、上架(商品域),发帖(互动域)
- 时间周期:明确数据统计的事件范围或时间点。如最近30天、截止当日
- 修饰类型:对修饰词的抽象划分。从属于某个业务域。如访问终端类型
- 修饰词:除了统计维度以外指标的业务场景限定抽象。如:PC端、无线端
- 度量/原子指标:基于某一业务事件行为下的度量,不可拆分的指标,有明确业务含义的名词。如支付金额
- 维度:指度量的环境,**用来反映业务的一类属性,**这类属性的集合构成一个维度。如地理维度、事件维度、买家下单事件中的买家
- 维度属性:隶属于一个维度,如国家、地区、省市
- 派生指标:一个原子指标+多个修饰词(可选)+ 时间周期构成。对原子指标业务范围统计的圈定。如:原子指标为支付金额,那么派生指标可以是最近一天海外买家支付金额
9.3 指标体系
- 派生指标:一个原子指标+多个修饰词(可选)+ 时间周期构成。且可选择多个修饰词,修饰词之间的关系为或或者且,派生指标唯一归属于一个原子指标。
- 原子指标:要有确定的英文字段名(动作+度量)、数据类型和算法说明。
- 修饰词:只有时间周期才会有英文名。如最近一天1d,截止当日td,最近7天1w
- 一般来说有三种指标:
- 事务型指标: 对业务活动进行衡量的指标。如新发商品数、新增注册会员数
- 存量型指标:实体对象英文名 + stock。如在线会员数、注册会员总数等
- 复合型指标:在上面两个指标的基础上复合而成。如浏览UV下单买家数转换率。(比率型、比例型、变化量型、变化率型、统计型、排名型、对象集合型)
- 事务和存量指标,他们只会唯一定位到一个业务过程,两个行为同时发生、需要多个修饰词、生成一个派生指标的情况,会选择时间靠后的行为创建原子指标,前面的行为为修饰词。
9.4 模型设计
维度建模理论为基础,基于维度数据模型总线架构,构建一致性的维度和事实
-
操作数据层(ODS):操作系统数据几乎无处理地存放在数据仓库中。主要做的操作:同步、结构化、累计历史、清洗。
-
公共维度模型层(CDM):存放明细事实数据、维表数据以及公共指标汇总数据。采用维度退化的手段,把维度退化到事实表中,减少事实表和维表的管理,提高易用性和复用性。主要操作:组合相关和相似数据、公共指标统一加工、建立一致性维度
-
应用数据层(ADS):存放数据产品个性化的统计指标数据。主要操作:个性化指标加工、应用的数据组装
9.4.1 基本原则
- 高聚合低耦合,业务相近或相关的设计为一个物理模型,高概率同时访问的放一起。
- 核心模型和扩展模型分离
- 公共处理逻辑下沉及单一,底层进行封装和实现
- 成本与性能平衡
- 数据可回滚
- 一致性
- 命名清晰、可理解
9.5 模型实施
需要充分的业务调研和需求分析,这个是基石;
进行数据总体架构设计,主要是根据数据域对数据划分;
按照维度建模理论,构建总线矩阵、抽象出业务过程和维度;
对报表需求整理出指标体系。