The Data Warehouse ETL Toolkit学习笔记-架构（数据流主线―数据管理）

最新推荐文章于 2020-08-07 22:30:32 发布

cuanao6789

最新推荐文章于 2020-08-07 22:30:32 发布

阅读量108

点赞数

数据仓库的后台和前台从物理上、逻辑上以及管理上都是分开的。

数据管理是指获取数据并将数据转化成信息，最终将这些信息提交到前端的查询界面，后台不提供查询服务。

后台数据访问是被严格禁止的。

是否支持数据访问正是后台和前台的关键区别。

（一）集结

集结意味着临时的或永久的物理数据快照。

1、抽取步骤

源系统的原始数据在进行大的转换之前通常直接写入到磁盘（通常中写入文本文件或关系型数据库），以保证最初的抽取尽可能简单和快速。

清洗步骤完成后，通常有三种处理方式：

= 1 \* GB2 ⑴ 直接丢弃；

= 2 \* GB2 ⑵ 归档以长期保存；

= 3 \* GB2 ⑶ 保存至少一个抽取周期，以计算连续抽取之间的不同之处。

虽然在清洗和转换步骤可以进行重要的内容转换，但是解决遗留数据格式问题的最佳时机还是在抽取阶段。抽取阶段的转换包括编码格式转换、大小写转换、重定义、重载列等。

（二）清洗步骤

源系统可接受的数据质量程序依据数据仓库要求的质量而不同。

数据质量的处理包括以下几个独立的步骤：有效值检测、一致性检测、删除重复记录、检测是否有复杂的业务规则和过程需要增强等。

数据清洗转换可能需要人为的干预和判断。

数据清洗步骤的结果往往是半永久保存的。

（三）规格化步骤

当多个数据源合并到数据仓库时就需要数据规格化。

数据规格化的过程比简单的数据清洗重要的多，数据规格化需要在顶层确定统一的标准规范，包括口径和度量。

（四）提交步骤

后台任务的终点就是准备好数据以方便查询。

提交步骤至关重要的是将数据物理地组织成简单、对称的维度模型，这种框架大大降低了查询时间、简化了开发过程。

维度模型是构建OLAP立方体的必要基础。

建议将维度模型作为每个数据仓库后台的最终目标。

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/16239395/viewspace-764793/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/16239395/viewspace-764793/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
The Data Warehouse ETL Toolkit学习笔记-架构（数据流主线―数据管理）

数据仓库的后台和前台从物理上、逻辑上以及管理上都是分开的。数据管理是指获取数据并将数据转化成信息，最终将这些信息提交到前端的查询界面，后台不提供查询服务。后台数据访问是被严格禁止的。是否支持数据...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。