数据仓库
文章平均质量分 91
数仓建设,数据治理
雾岛与鲸
这个作者很懒,什么都没留下…
展开
-
一篇文章搞懂数据仓库:总线架构、一致性维度、一致性事实
目录1、概述总线架构一致性维度一致性事实2、总线架构demo小结1、概述在Kimball的维度建模的数据仓库中,关于多维体系结构(MD)有三个关键性概念:总线架构(Bus Architecture),一致性维度(Conformed Dimension)和一致性事实(Conformed Fact)。总线架构多维体系结构(总线架构) 数据仓库领域里,有一种构建数据仓库的架构,叫Multidimensional Architecture(MD),中文一般翻译为“多维体系结构”,也称为“总线架构”(Bus转载 2021-05-29 13:53:47 · 1428 阅读 · 0 评论 -
数仓建模—数据模型
文章目录数据模型什么是数据模型数据仓库模型数据仓库三个阶段简单报表阶段数据集市阶段数据仓库阶段数据模型建设的意义进行全面的业务梳理建立全方位的数据视角数据模型所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。在银行业,IBM 有自己的 BDWM(Banking data warehouse model),而 NCR 有自己的 FS-LDM 模型。在电信业,IBM 有 TDWM(Telecom Data warehouse model),而 NCR转载 2021-05-27 22:38:13 · 224 阅读 · 0 评论 -
数仓建模—数据治理
文章目录1、数据治理统一流程参考模型为什么要治理?数据质量层次不齐数据交换和共享困难缺乏有效的管理机制存在数据安全隐患发现问题严重滞后影响不清晰DMBOK的数据治理框架2、数仓治理治理的分类粗治理细治理数据源治理数据源管理数据源监控数据同步数仓模型治理数据划分及命名空间约定常规表的命名中间表统一指标和字段命名公共处理逻辑下沉及单一核心模型与扩展模型分离层次调用约定组合原则数据拆分核心表数据冗余sql 规范任务注释sql 模板数据服务治理上下游约定上游约定表结构变更枚举值create_time & u转载 2021-05-21 11:00:20 · 1044 阅读 · 0 评论 -
数仓建模—建模流程
1、建模流程其实就是业务模型->概念模型->逻辑模型->物理模型的这样一个流程,下面我们详细解释一下各个模型阶段都要做什么业务建模(需求沟通)根据业务部门进行划分,理清部门之间的关系,然后将各个部门的具体业务程序化,与业务部门开会协商出需求的指标、保存年限、维度等等。总体来讲,就是要知道他们需要哪些指标以及他们能提供哪些数据。业务建模的时间最长,而且与公司实际的业务环境息息相关,因此在这里需要根据实际生产环境和业务需求确认好数据仓库使用的工具和平台。主要解决业务层面的分解和转载 2021-05-19 16:20:57 · 3695 阅读 · 0 评论 -
数据仓库(二)之维度建模篇
概述维度建模是一种将数据结构化的逻辑设计方法,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。维度建模优点事实表事实表存储了从业务活动或事件提炼出来的性能度量,它主要包含维度表的外键和连续变化的可加性数值或半可加事实。事实表产生于业务过程转载 2020-09-25 15:09:44 · 546 阅读 · 0 评论 -
数据仓库(一)之需求篇
概述业务需求定义了企业的业务人员为了完成其工作,进而实现企业目标,一定要具备的东西。包括功能性需求和提供的服务。它是数据仓库的核心,从广度和深度上做好需求调研为数据仓库建设建立良好的开端。需求分类需求调研步骤1.确定调研对象由于业务人员不懂技术,它们以为需求都会得到满足。各个项目开发人员不懂业务,不熟悉整个业务场景。数据仓库团队需要把他们召集起来一起反复的讨论需求的细节。2.了解源系统需求调研开始之前,需要先了解公司有哪些源系统,包括源系统的所有者是谁、有哪些业务流程、源系统的数据存储方转载 2020-09-25 11:12:42 · 631 阅读 · 0 评论 -
多值维度及交叉维度最佳解决方案
多值维度及交叉维度最佳解决方案1、前言2、事实表与维度表多对多(多值维度)3、维表与维表多对多(交叉维度)4、总结1、前言正常情况下,维表和事实表之间是一对多的关系,维表中的一行记录会连接事实表中的多行记录,事实表中的一行记录在维度表中只能关联上一条记录,不会发生数据发散的现象。想法是美好的,但是事实总是不尽人意。因为现实中不但事实表和维度表之间存在多对多的关系,维度表和维度表之间也存在多对多的关系。这两种情况本质是相同的,但事实表和维度表之间的多对多关系少了唯一描述事实和维度组的中间维度。对于这转载 2020-09-24 11:03:30 · 988 阅读 · 0 评论 -
一套 SQL 搞定数据仓库?Flink 有了新尝试
导读:数据仓库是公司数据发展到一定规模后必然需要提供的一种基础服务,也是“数据智能”建设的基础环节。迅速获取数据反馈不仅有利于改善产品及用户体验,更有利于公司的科学决策,因此获取数据的实时性尤为重要。目前企业的数仓建设大多是离线一套,实时一套。业务要求低延时的使用实时数仓;业务复杂的使用离线数仓。架构十分复杂,需要使用很多系统和计算框架,这就要求企业储备多方面的人才,导致人才成本较高,且出了问题难以排查,终端用户也需要熟悉多种语法。本文分析目前的数仓架构,探索离线和实时数仓是否能放在一起考虑,探索 Fli转载 2020-09-18 15:01:21 · 227 阅读 · 0 评论 -
数据仓库之拉链表,相关思考和总结
目录前言创建模拟数据库和表第一种情况:stg层中的order表是增量抽取最新数据(插入方式是先truncate,再增量插入最新数据)插入第一批模拟数据执行拉链操作脚本更新stg层order表数据再次执行脚本后查看ods层order表数据情况第二种情况:stg层的数据是全量抽取最新数据(先truncate表,再全量插入最新数据)清空stg和ods层order表的数据再插入模拟数据执行脚本查看ods层的数据情况清空stg表中数据并插入全量数据再次执行脚本并查看数据思考总结1、拉链表和流水表2、查询性能3、淘汰机原创 2020-09-02 16:41:40 · 1117 阅读 · 0 评论 -
数仓事实表设计
事实表设计数仓里面的事实表具体分为两大类:明细事实表聚合事实表明细事实表 (dwd)明细事实表: 事实表有粒度大小之分,基于数据仓库层次架构,明细事实表一般存在于dwd层,该层事实表设计不进行聚合、汇总操作,仅做数据规范化、数据降维动作,同时数据保持业务事务粒度,确保数据信息无丢失。 数据降维: (利用数据冗余来达到降维的目的,提高任务的执行效率) 为了提升模型易用性,将常规维度表中的常用的属性数据冗余到相应的事实表中,从而在使用的时候 避免维表关联的方式,原创 2020-08-19 16:01:17 · 1964 阅读 · 2 评论 -
数据仓库维度建模
数据仓库维度建模雪花模型 星型模型 星座: 多个事实表问题: 1、数据仓库,不针对某一个分析主题,而是有多个分析主题,即多个事实表,维度表怎么设计?2、即使是同一个分析主题,也可能存在多个事实表,维度表如何设计?多个时间维度?无论星型模型、雪花模型还是星座模型,都是针对维度上的区别而来,星座模型实质上还是星型模型,只是共用了维度。维度设计代理键: 维度表中唯一有一个能够唯一标识一行记录的列,通过该列维护维度表和事实表的关系,一般在 维度表中业务主键符合条件可以当作原创 2020-08-19 15:53:31 · 271 阅读 · 0 评论 -
数仓建设 - 缓慢变化维的10种处理方式
顾名思义,缓慢变化维(Slowly Changing Dimension)就是变化相对缓慢(相对与快速变化的事实表来说)的维度。在维度建模理论中,有8种处理方式,包括基础的5种以及混合的3种。 再加上大数据时代的2种极限型,共10种,具体如下:1、基础型1.1、方法0: 保留原始值维度属性值不做更改,保留原始值。此方式什么也不做,所以称之为方式0。比如商品上架售卖时间:一个商品上架售卖后可能由于缺货下架,补充库存后又再次上架,此种情况产生了多个商品上架售卖时间。如果重点关注的是商品首次上架售原创 2020-08-05 16:51:33 · 10346 阅读 · 9 评论 -
离线数仓-数据增量采集与同步
方式1:1、流水性数据: 写入数据库后不再发生变化的日志流水数据每日可以按照数据时间进行增量采集,采集后放入数仓的ods--query "select ... from ... where ... and updated_time>=T-1 and updated_time<T"方式2:2、普通性数据: 存在状态,内容变化的数据数据量不大,可以每日全量快照采集数据量比较大,每天变化大比例比较少,采用增量采集上日变化部分大数据全量:--query "select ... fro原创 2020-05-12 14:01:38 · 1891 阅读 · 0 评论