Data Warehouse
文章平均质量分 91
数据仓库
feijinz
这个作者很懒,什么都没留下…
展开
-
数据仓库系列文章二:浅谈企业数据仓库总线矩阵
1原创 2022-05-08 13:13:15 · 4264 阅读 · 1 评论 -
数据仓库系列文章一:浅谈数仓设计
数仓设计指对数据仓库的各项组成进行规划,在正式建设数仓之前形成指导性建设方案。数仓设计主要分为两部分:数据仓库同操作型业务系统的数据接口设计和数仓自身建设设计。本文从多个方面探讨数仓的设计要点,给出需要注意的问题,提供部分实践建议。原创 2022-03-27 20:07:36 · 5523 阅读 · 3 评论 -
浅谈缓慢变化维度设计
前言维度会随着时间而变化,好的数据模型应具有追踪维度变化的能力。Kinball在维度建模工具箱一书中提出7种缓慢变化维度(Slowly changing Dimension, SCD)处理技术,本文将逐一详解,并辅以代码实现案例。其中类型1-4为基本设计方法,类型5-7为类型1-4相互组合形成,也成为混合设计方法。缓慢变化维度设计与实现维度属性不变的情况,在Kinball理论中成为类型0情况,如一个人的出生日期,这类属性一旦有值,将不在变化,可以视为常量。为辅助讲解,本文设定一个案例场景:为原创 2022-02-26 12:25:49 · 606 阅读 · 0 评论 -
详解MapReduce&Yarn工作原理及优化建议
目录前言基本知识MapReduce工作流程任务提交(Yarn)任务计算(MapReduce)相关优化推荐学习前言Hadoop的三个核心模块:HDFS、MapReduce(简称MR)和Yarn,其中HDFS模块负责数据存储,MapReduce负责数据计算,Yarn负责计算过程中的资源调度。在存算分离的架构中,三者越来越多的同其他框架搭配使用,如用Spark替代MapReduce作为计算引擎或者k8s替换Yarn作为资源调度工作。虽然已经有了许多替代框架,MapRed原创 2022-02-20 20:19:56 · 1257 阅读 · 0 评论 -
kinball<数据仓库工具箱>阅读笔记
一个数字量到底是事实还是维度属性,对设计者来说是一个两难的问题,很难做出决策。连续值数字基本上可以认为属于事实,来自于一个不太大的列表的离散数字基本可认为是维度属性。 由于与事实表比较,维度表通常要小的多,因此规范化或雪花模式实际上对数据库的总容量没有多大影响。一般对维度表存储空间的权衡往往需要关注简单性和可访问性。 避免独立数据集市方法,虽然独立的数据集市往往也采用维度建模方法,但是忽视了一致性原则。 项目可能包含多个业务过程,可以分多次迭代实现多个业务过程覆盖,而不是试图一次完成全部业务过程的覆.原创 2021-08-08 21:25:11 · 429 阅读 · 0 评论 -
Hive中Inner join、Outer join、Full join中on与where的执行计划与结果区别
背景本文主要讨论hive(版本2.3)中,不同join方式下on条件和where条件的区别,同时关注hive中如何执行语句。比如谓词下推,就是其中一种优化技术。原表person表person.id person.name person.age3 mili 214 tom 195 mike 188 nul 20account表account.id account.account1原创 2021-03-27 15:06:09 · 1961 阅读 · 2 评论