大数据之路—— 数据整合和管理体系

大数据建设方法论的核心:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理性、可追溯、可规避重复建设。
<>
建设统一的、规范的数据接入层和中间层,完成数据公共层建设,提供标准化的、共享的、数据服务能力,降低成本等。

9.1 体系架构图

请添加图片描述

9.2 名词术语

  • 数据域:指面向业务分析,将业务过程或者维度进行抽象的集合。是要抽象提炼,并且长期维护和更新的,不轻易变动。如交易域、商品域、会员域
  • 业务过程:一个个不可拆分的行为事件(企业活动中的事件)。如下单、支付、退款(交易域),发布、上架(商品域),发帖(互动域)
  • 时间周期:明确数据统计的事件范围或时间点。如最近30天、截止当日
  • 修饰类型:对修饰词的抽象划分。从属于某个业务域。如访问终端类型
  • 修饰词:除了统计维度以外指标的业务场景限定抽象。如:PC端、无线端
  • 度量/原子指标:基于某一业务事件行为下的度量,不可拆分的指标,有明确业务含义的名词。如支付金额
  • 维度:指度量的环境,**用来反映业务的一类属性,**这类属性的集合构成一个维度。如地理维度、事件维度、买家下单事件中的买家
  • 维度属性隶属于一个维度,如国家、地区、省市
  • 派生指标一个原子指标+多个修饰词(可选)+ 时间周期构成。对原子指标业务范围统计的圈定。如:原子指标为支付金额,那么派生指标可以是最近一天海外买家支付金额

9.3 指标体系

  • 派生指标一个原子指标+多个修饰词(可选)+ 时间周期构成。且可选择多个修饰词,修饰词之间的关系为或者,派生指标唯一归属于一个原子指标。
  • 原子指标:要有确定的英文字段名(动作+度量)、数据类型和算法说明。
  • 修饰词:只有时间周期才会有英文名。如最近一天1d,截止当日td,最近7天1w
  • 一般来说有三种指标:
    • 事务型指标: 对业务活动进行衡量的指标。如新发商品数、新增注册会员数
    • 存量型指标:实体对象英文名 + stock。如在线会员数、注册会员总数等
    • 复合型指标:在上面两个指标的基础上复合而成。如浏览UV下单买家数转换率。(比率型、比例型、变化量型、变化率型、统计型、排名型、对象集合型)
    • 事务和存量指标,他们只会唯一定位到一个业务过程,两个行为同时发生、需要多个修饰词、生成一个派生指标的情况,会选择时间靠后的行为创建原子指标,前面的行为为修饰词

9.4 模型设计

维度建模理论为基础,基于维度数据模型总线架构,构建一致性的维度和事实

请添加图片描述

  • 操作数据层(ODS):操作系统数据几乎无处理地存放在数据仓库中。主要做的操作:同步、结构化、累计历史、清洗。

  • 公共维度模型层(CDM):存放明细事实数据、维表数据以及公共指标汇总数据。采用维度退化的手段,把维度退化到事实表中,减少事实表和维表的管理,提高易用性和复用性。主要操作:组合相关和相似数据、公共指标统一加工、建立一致性维度

  • 应用数据层(ADS):存放数据产品个性化的统计指标数据。主要操作:个性化指标加工、应用的数据组装

9.4.1 基本原则

  1. 高聚合低耦合,业务相近或相关的设计为一个物理模型,高概率同时访问的放一起。
  2. 核心模型和扩展模型分离
  3. 公共处理逻辑下沉及单一,底层进行封装和实现
  4. 成本与性能平衡
  5. 数据可回滚
  6. 一致性
  7. 命名清晰、可理解

9.5 模型实施

需要充分的业务调研和需求分析,这个是基石;

进行数据总体架构设计,主要是根据数据域对数据划分;

按照维度建模理论,构建总线矩阵、抽象出业务过程和维度;

对报表需求整理出指标体系。

请添加图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值