数仓-概述

最新推荐文章于 2024-08-09 16:39:42 发布

bin330720911

最新推荐文章于 2024-08-09 16:39:42 发布

阅读量3.8k

点赞数

个人学习笔记记录，不做他用

一、ETL 系统

从源系统抽取数据，执行数据质量和一致性标准，然后规格化数据，从而使分散的源数据可以集中在一起使用，最终再以可以展现的格式提交数据，以便应用开发者可以创建应用系统，也使最终用户可以制定决策

消除数据错误并纠正缺失数据
提供对于数据可信度的文档化衡量
为保护数据获取相互作用的数据流程
把多个源数据整合到一起
 将数据进行结构化供最终用户使用

二、设计流程

2.1 规划与设计：需求/现状->架构 ->实现-> 测试/发布

需求/现状：
 业务需求
 数据评估和数据源现状
 监察需求
 安全需求
 数据集成
 数据延迟
 归档和沿袭
 最终用户提交界面
 可用的开发技能
 可用的管理技能
 已有的许可证

架构：

手工编码还是使用ETL 工具
 批处理还是流数据处理
 水平任务依赖还是垂直任务依赖
 自动调度
 异常处理
 质量控制
 恢复与重启
 元数据
 安全

实现（系统实施）：

硬件
 软件
 编码
 文档
 特定质量检查

测试/发布：

开发系统
 测试系统
 生产系统
 提交过程
 升级方案
 系统快照和回滚过程
 性能调优

2.2 数据流：抽取->清洗 ->规格化-> 提交

抽取

读取源数据模型
 连接并访问数据
 调度源系统，截取通知和后台程序
 捕获变化数据
 将抽取的数据集结到磁盘

清洗

强制列属性
 强制结构
 强制数据和数值规则
 强制复杂业务规则
 创建元数据来描述数据质量
 将清洗后的数据集结到磁盘

规范化：

业务标志（在维表中）的规格化
 业务度量和绩效指标（在事实表中）的规格化
 复制
 家庭关联信息的规格化（Householding）
 国际化
 将规格化的数据集结到磁盘

提交：

加载平面型和雪花型维度
 生成时间维
 加载退化维
 加载子维
 加载缓慢变化维（包括类型1、2、3）
 规格化维和规格化事实
 处理迟到维和迟到事实
 加载多值维
 加载ragged层次维
 加载维中的文本型事实
 为事实表运行代理健pipeline
 加载三种基础事实表粒度
 加载和更新聚合表
 将提交数据集结到磁盘

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

bin330720911 CSDN认证博客专家 CSDN认证企业博客

码龄14年

10: 原创

24万+: 周排名

118万+: 总排名

9万+: 访问

: 等级

980: 积分

38: 粉丝

24: 获赞

9: 评论

94: 收藏

私信

关注

热门文章

分类专栏

Flink 1篇
Scala 1篇
管理工具 7篇
HBASE
Oracle 1篇
Impala 3篇
数仓 1篇
Python 15篇

最新评论

Metabase研究
Zeno118: 有导出功能，一直没有找到
数据仓库-模型
Tisfy: 我曾经忘情于汉廷的歌赋，但刚发现此文甚妙！
Metabase研究
hmeixia02: 某个表其中一列数据是根据case when then查询出来的，现在要求改用自定义查询去实现，这个咋实现？
Metabase研究
weixin_38920641: 现在工作中遇到一个问题，metabase能够支持的数据库有MySQL、Postgresql 和 H2等12种，但是现在项目中想用metabase连接Kylin(麒麟数据库)，Metabase原生不支持Kylin，如果使用的话需要进行驱动的二次开发。从未接触过数据库驱动开发，这个是怎么一个思路呢？有无可能实现？
Metabase研究
keyleaf~~~~ 回复支持weixin_39816270:

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。