
数据仓库集锦
文章平均质量分 88
数据仓库建设的理论方法、实战经验、群友相互交流,共同进步,搜【信息技术智库】加入组织。
不吃西红柿丶
CSDN内容合伙人、信息技术智库公号作者、华为HDZ成员、《Python爬虫入门到开发实战》作者。深受全网30万粉丝不爱的技术博主,交流合作私信+。目前就职于Apple,欢迎技术交流。
展开
-
耗时n年,38页《数据仓库知识体系.pdf》(数据岗位必备)
拥有本篇文章,意味着你拥有一本完善的书籍,本篇文章整理了数据仓库领域,几乎所有的知识点。原创 2021-10-07 07:30:00 · 755005 阅读 · 42 评论 -
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
发现数据质量问题 > 定义数据质量规则 > 质量控制 > 质量评估 > 质量优化。 数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。原创 2020-12-03 12:12:31 · 33041 阅读 · 22 评论 -
一篇文章搞懂数据仓库:三种事实表(设计原则,设计方法、对比)
1、三种事实表概述2、三种事实表对比3、事实表设计 8 大原则4、事实表设计方法第一步:选择业务过程及确定事实表类型第二步:声明粒度第三步:确定维度第四步:确定事实原创 2020-12-04 14:08:31 · 27036 阅读 · 184 评论 -
一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)
2.1 维度模型2.1.1 星型模型2.1.2 雪花模型2.1.3星座模型2.2 范式模型2.3 Data Vault模型2.4 Anchor模型原创 2020-12-04 14:05:00 · 25068 阅读 · 39 评论 -
一篇文章搞懂数据仓库:数据仓库的8个发展阶段
一 概念阶段(1978-1988)二 萌芽阶段三 集成阶段四 确立阶段(1991)五 数据集市(1994-1996)六 争吵与混乱(1996-1997)七 合并(1998-2001)八 未来原创 2020-07-16 16:53:26 · 20141 阅读 · 15 评论 -
这5个超级经典SQL都不会,回去等通知吧
一、每门课程问题用一条 SQL 语句查询 学生表每门课都大于 80 分的学生姓名。解决办法一: having思路:如果最小的课程都大于80分,那他所有的课程分数,肯定都大于80分!原创 2021-11-04 11:35:24 · 24813 阅读 · 31 评论 -
23篇大数据系列(三)sql基础知识(史上最全,建议收藏)
❤ 免费下载海量【PPT模板、简历模板、学习资料】❤ 大数据系列文章,从技术能力、业务基础、分析思维三大板块来呈现原创 2021-06-22 12:10:02 · 6852 阅读 · 25 评论 -
数据仓库面试题集锦(附答案和数仓知识体系)
数据仓库知识体系 + 面试题集锦原创 2021-05-10 16:57:36 · 42462 阅读 · 61 评论 -
一篇文章搞懂数据仓库:元数据分类、元数据管理
业务元数据描述 ”数据”背后的业务含义主题定义:每段 ETL、表背后的归属业务主题。业务描述:每段代码实现的具体业务逻辑。标准指标:类似于 BI 中的语义层、数仓中的一致性事实;将分析中的指标进行规范化。标准维度:同标准指标,对分析的各维度定义实现规范化、标准化。不断的进行维护且与业务方进行沟通确认。原创 2020-12-31 15:41:39 · 14607 阅读 · 17 评论 -
一篇文章搞懂数据仓库:总线架构、一致性维度、一致性事实
总线矩阵:业务过程和维度的交点; 一致性维度:同一集市的维度表,内容相同或包含; 一致性事实:不同集市的同一事实,需保证口径一致,单位统一。原创 2020-12-28 17:33:16 · 15276 阅读 · 8 评论 -
一篇文章搞懂数据仓库:数据应用--OLAP
1、OLAP和OLTP的区别 2、OLAP分类 3、OLAP基本操作 4、OLAP选型原创 2020-12-18 15:53:00 · 12648 阅读 · 5 评论 -
一篇文章搞懂数据仓库:数据仓库架构-Lambda和Kappa对比
早期经典数仓架构 > 离线大数据架构 > Lambda > Kappa > 混合架构。原创 2020-12-07 02:46:44 · 14884 阅读 · 14 评论 -
一篇文章搞懂数据仓库:数据仓库规范设计
设计规范 逻辑架构、技术架构、分层设计、主题划分、方法论命名规范 各层级命名、任务命名、表命名、字段命名、指标命名等模型规范 建模方法、建模工具、血缘关系、维度退化、一致性维度、元数据管理开发规范 脚本注释、字段别名、编码规范、脚本格式、数据类型、缩写规范流程规范 需求流程、工程流程、上线流程、调度流、调度和表生命周期管理原创 2020-12-04 14:09:25 · 14876 阅读 · 10 评论 -
一篇文章搞懂数据仓库:常用ETL工具、方法
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程原创 2020-12-04 14:06:10 · 69611 阅读 · 5 评论 -
一篇文章搞懂数据仓库:维度表(设计原则、设计方法)
1、什么是维度表?2、维度表设计原则(1)维度属性尽量丰富,为数据使用打下基础(2)给出详实的、富有意义的文字描述(3)区分数值型属性和事实(4)沉淀出通用的维度属性,为建立一致性维度做好铺垫(5)退化维度(DegenerateDimension)(6)缓慢变化维(Slowly Changing Dimensions)3、维度表设计方法原创 2020-12-01 15:29:08 · 29062 阅读 · 5 评论 -
一篇文章搞懂数据仓库:三范式与反范式
一、第一范式二、第二范式三、第三范式四、反范式化五、范式化设计和反范式化设计的优缺点5.1 范式化 (时间换空间)5.2 反范式化(空间换时间)六、OLAP和OLTP中范式设计原创 2019-04-18 16:55:36 · 37043 阅读 · 9 评论