ETL架构中的38个子系统

本文详细介绍了数据仓库ETL过程中的38个子系统,包括抽取、转换和加载的各个阶段,如数据概况分析、数据清洗、错误处理、审计维度生成等,强调了ETL系统在数据仓库建设中的重要性和复杂性,以及掌握这些子系统对于构建成功数据仓库的重要性。
摘要由CSDN通过智能技术生成
--By Ralph Kimball, 2004年4月
建立一个成功的数据仓库系统,依靠的是最佳实践而不是直觉。
三个简单的字母,E-T-L,很容易的让大家忽视了38个ETL子系统在数据仓库建设中的重要性。
抽取-转换-加载(ETL)系统,或者非正式的称为“后台系统”,在建立整个数据仓库系统中占据了70%的工作量和时间。但是这还不足以说明ETL系统的复杂性。每个人都理解这三个字母的含义,E,从源系统中将数据取出来;T,对这些数据做处理;L,加载到最终用户访问的表中。
但是当我们问及如何来分解这三大步骤时,很多设计人员都会说,“具体问题,具体分析”。例如,这依赖于不同的数据源;这依赖于数据的特性;这依赖于脚本语言以及可以使用的ETL工具的情况;这依赖于员工的技术能力;这还依赖于最终用户使用的查询和报表工具。
“具体情况,具体分析”是一个很危险的事情,因为它很容易称为系统混乱的一个借口。伴随着几千个成功数据仓库项目的经历,我们整理出了一系列的最佳实践。
最近的18个月,我们一直在钻研ETL的实践和ETL的产品。我们标识出了在每一个数据仓库项目的后台部分都会涉及到的38个子系统。坏消息是ETL系统确实占据了数据仓库项目的大部分资源。好消息是如果你能掌握所有的这些子系统,你就可以很容易的使用你的经历来建立成功的数据仓库系统。
1.抽取系统(Extract System)
主要功能包括源数据的适配器,推/拖/搬运数据的工作调度,对源数据的过滤和排序功能,数据格式的转换,迁移到ETL环境后的数据暂存功能。
2.变化数据捕获系统(Change Data Capture System)
主要功能包括对源数据日志文件的阅读功能,源数据日期和序列号的过滤功能,基于CRC算法的记录比较功能。
3.数据概况分析系统(Data Profiling System)
主要功能包括字段属性分析,如参照域的分析;结构分析,如主外键关系分析;数据规则分析;值规则分析等。
4.数据清洗系统(Data Cleansing System)
主要功能包括一个典型的数据字典驱动的系统,用于解析个体和组织的名称、地址等信息,也用来解析产品、场所等内容&#
Web数据分析系统架构图可以根据具体需求和技术选型的不同而有所差异。以下是一个常见的Web数据分析系统的典型架构图: 1. 用户界面层:用户通过浏览器或移动设备与系统进行交互,包括数据查询、报表展示、设置等功能。 2. 前端服务层:负责接收用户请求,处理用户输入,进行数据验证和格式化,并将请求转发给后端服务层。 3. 后端服务层:包括多个子模块,主要负责数据处理、存储和分析等核心功能。常见的子模块包括: - 数据采集模块:负责从各种数据源(如网站、移动应用、服务器日志等)采集原始数据,并进行预处理和清洗。 - 数据存储模块:用于存储采集到的原始数据和处理后的数据,常见的存储方式包括关系型数据库、NoSQL数据库、分布式文件系统等。 - 数据处理模块:对原始数据进行清洗、转换和计算,生成可供分析和展示的数据集。常见的处理方式包括ETL(抽取、转换、加载)流程、MapReduce等。 - 数据分析模块:基于处理后的数据进行各种分析,如用户行为分析、业务指标分析、趋势分析等。常见的分析方法包括统计分析、机器学习、数据挖掘等。 - 报表展示模块:将分析结果以可视化的形式展示给用户,如图表、报表、仪表盘等。 4. 数据仓库层:用于长期存储和管理历史数据,支持复杂的查询和分析需求。常见的数据仓库技术包括关系型数据库、列式数据库、大数据平台等。 5. 外部数据源:系统可能需要与外部数据源进行集成,如第三方API、其他系统的数据接口等。 6. 安全与权限控制:保护系统的数据安全和用户隐私,限制用户对数据的访问权限。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值