ETL解决方案之ETL子系统详解

最新推荐文章于 2024-06-25 09:45:11 发布

徐长亮

最新推荐文章于 2024-06-25 09:45:11 发布

阅读量4.3k

点赞数 3

分类专栏： [2016年以后] EDW-ETL架构文章标签： ETL解决方案 ETL系统 ETL架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/clark_xu/article/details/54312857

版权

本文详细介绍了数据仓库ETL（抽取、转换、加载）解决方案中的34个子系统，涵盖数据剖析、增量捕获、数据清洗、错误处理、审计维度、去重、一致性检查、缓慢变更维度处理等方面，旨在提升ETL过程的效率和数据质量。通过对ETL子系统的理解，可以更好地设计和管理数据仓库的ETL流程。

摘要由CSDN通过智能技术生成

ETL解决方案之ETL子系统详解

一

前言-ETL子系统由来

作者kimball在2002年出版的《The data warehouse etl toolkit》定义了38个ETL子系统。
在2008年出版的《The data warehouse lifecycle toolkit》中，ETL子系统被重构为34种子系统。本文就详细介绍这34个ETL子系统

ETL解决方案包括如下几个部分：

➜抽取：【从数据源获取数据】

➜清洗和更正【转换和集成数据，统一口径】

➜发布：【加载和更新数据仓库数据】

➙管理：【管理和监控ETL解决方案所有组件的处理过程】

ETL解决方案与ETL子系统：

抽取：子系统1-3
清洗和更正：子系统4-8
发布：子系统9-21
管理：子系统22-34

抽取-数据剖析，增量数据捕获和抽取

【1】子系统1：数据剖析系统----分析不同数据源的结构和内容。

类似NULL值个数统计，行统计。

【2】子系统2：增量数据捕获系统----捕获源系统里数据的变化

Kettle中的一些步骤可以通过时间戳，快照的方式获得变化的数据。

【3】子系统3：抽取系统----从不同的数据源抽取数据，并且输入到ETL流程里。

Kimball明确区分了基于文件的和基于流的两种抽取。从kettle的角度看，这种区分方法不太恰当，无论从数据库，文件实时数据源，web services只有可以访问数据源，都可以以流的方式。抽取的主要区别是静态还是动态的问题。

清洗和更正数据

【4】子系统4：数据清洗和质量处理系统。

可以在原系统中进行数据清洗。

可以在ETL项目中提高数据质量；

ETL项目总进行数据清洗的优势：1，在数据剖析阶段，能找出哪些错误数据，2

最低0.47元/天解锁文章

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。