数据仓库主题一(宽表模型设计)

11 篇文章 13 订阅
10 篇文章 28 订阅

在这里插入图片描述

一、典型的数据仓库建模思想一般主流分为两种

第一种
ER模型是数据仓库之父父 Bill lnmon 提出的建模方法是从全企业的高度设计
3NF 模型,用实体关系( Entity Relationship, ER )模型描述企业业
务,在范式理论上符合 3NF 。后续又有人通过在其基础进行衍生和优化发展了 Data Vault 模型和Anchor 模型(具体类型思想可自行资料)
第二种
维度模型:维度模型是数据仓库领域的 Ralph Kimball 大师所倡导的,数据仓库工程领域最流行的数据仓库建模的经典。维度建模是从分析决策的需求出发构建模型。较好的大规模复杂查询的响应性能。其典型的代表是星形模型。具体业务设计可以分为以下几个步骤。
1、选择需要进行分析决策的业务过程。(业务工程中可以是单个业务事件,比如交易的支付、退款等;也可以是某个业务事件的状态,比如当前的账户余额;当然还可以是一系列的相关的业务事件组成业务流程,具体需要我们分析某些事件的发生情况,还是当前的状态,或者事件流转效率。)
2、选择合适粒度(我们要预判所有分析需要细分的程度,从而决定选择的粒度。粒度是维度的一个组合。)
3、识别维表(选择好粒度之后,就需要基于此粒度设计维表,包括维度的属性,用于后续我们进行分组和筛选)
4、选择实时表(确定分析需要的衡量指标)

kimball 这本书中建议建模方法 dwd 范式 dws 维度建模 (重要待确认)

二、数据仓库建模中规范定义

规范定义是指以维度建模为理论基础,对不同层级的做定义。规范数据体系架构命名:
具体的数据体系架构如下:

在这里插入图片描述定义规范:(参考阿里)
数据域: 面向业务分析,将业务过程或者维度进行抽象集合,其中,业务过程可以概况为一个个不可已拆分的行为事件。在业务过程之下,可以定义指标;维度是指度量的环境。例如买家下单事件,如买家是维度。为保障整个体系的生命力数据域是需要抽象提炼并且长期维护和更新。并且不要轻易改动在划分数据域时 既能涵盖前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中和扩展
新的数据域。例子(如电商中的会员和店铺域、商品域、日志域、交易域、等)。
**业务过程:**指的是业务活动事件,如下单、支付、退款等都是业务过程。请注意,业务过程个不可拆分的行为亨,件 通俗地讲,业务过程就是企业活动中的事件。
时间周期:用来明确数据统计的时间范用或者时间点,如最近 30 天、自然周、截至当日等。
**修饰类型:**是对修饰词的一种抽象划分 修饰类型从属于某个业务域,如日志域的访问终端类型涵盖无线端、 端等修饰词。
修饰词:指除了统计维度以外指标的业务场景限定抽象 修饰词隶属于一种修饰类型,如在日志域的访问终端类型下 有修饰词 PC 端、无线端等。
度量(原子指标):原子指标和度量的含义相同,基于某一个业务事件行为下的度量,是业务定义中不可以在拆分的指标,具有明确业务含义的名词 ,如支付金额。
维度:维度是度量的环境,用来反映业务的一类属性 这类属性的集合构成 个维度维度 也可以称为实体对象维度属于个数据域,如地理维度(其中包挤罔家、地区、省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)
维度属性:维度属性隶属于一个维度 如地理维度里面的国家名称、同家 ID 、省份名称等都属于维度属性
派生指标::派生指标= 个原子指标+多个修饰词(可选)+时间周期 可以理解为对原子指
派生指标 标业务统计范罔的圈定 如原子指标 支付金额,最近1 天海外买家支付金额则为派生指标(最近 1天为时间周期 海外 为修饰词 买家作为维度,而不作为修饰词)
在这里插入图片描述
具体的例子为:
在这里插入图片描述

例如淘宝中 功能模块/业务像的业务动作
在这里插入图片描述
根据其中的业务动作进行抽象、归纳出其对应数据域。(具体对应抽象方式思维)
在这里插入图片描述

  • 9
    点赞
  • 89
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
数据仓库中的宽表和汇总表是数据仓库中非常重要的两个表。下面我向您介绍一下它们的设计方法: 1. 宽表设计方法 宽表是指包含了多个数据源(表)中的所有数据的一张表。它能够提高数据查询的效率,避免了多表关联查询的过程,同时也能够方便数据分析师进行数据建模、分析和报表制作。宽表设计方法如下: - 根据业务需求,选择需要加入宽表的数据源,包括数据源的字段、数据类型等。 - 将各个数据源的数据合并到一张表中,通过一些特定的字段进行关联,如日期、地点、产品等。 - 对宽表进行必要的数据清洗和转换,包括数据类型的转换、数据格式的规范化、空值处理等。 - 对宽表进行性能优化,包括数据压缩、数据分区、索引等操作,提高查询效率。 2. 汇总表设计方法 汇总表是指在数据仓库中,把细节数据按照一定的规则聚合起来的一张表,通常是根据不同的维度进行聚合。汇总表的设计方法如下: - 根据业务需求,确定需要聚合的指标和维度。 - 对每个维度,定义需要聚合的指标和聚合方式,如求和、平均数、最大值、最小值等。 - 对于聚合结果,根据业务需求,可以设计多个汇总表,包括日、周、月、季度、年等不同的时间粒度表。 - 对汇总表进行必要的数据清洗和转换,包括数据类型的转换、数据格式的规范化、空值处理等。 - 对汇总表进行性能优化,包括数据压缩、数据分区、索引等操作,提高查询效率。 总之,数据仓库中的宽表和汇总表设计方法,需要根据具体的业务需求和数据特征进行设计和优化,以提高数据仓库的数据查询效率和数据分析的准确性。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值