The Data Warehouse ETL Toolkit学习笔记-架构(数据流主线―数据管理)

数据仓库的后台和前台从物理上、逻辑上以及管理上都是分开的。

数据管理是指获取数据并将数据转化成信息,最终将这些信息提交到前端的查询界面,后台不提供查询服务。

后台数据访问是被严格禁止的。

是否支持数据访问正是后台和前台的关键区别。

(一)集结

集结意味着临时的或永久的物理数据快照。

1、抽取步骤

源系统的原始数据在进行大的转换之前通常直接写入到磁盘(通常中写入文本文件或关系型数据库),以保证最初的抽取尽可能简单和快速。

清洗步骤完成后,通常有三种处理方式:

 = 1 \* GB2 直接丢弃;

 = 2 \* GB2 归档以长期保存;

 = 3 \* GB2 保存至少一个抽取周期,以计算连续抽取之间的不同之处。

虽然在清洗和转换步骤可以进行重要的内容转换,但是解决遗留数据格式问题的最佳时机还是在抽取阶段。抽取阶段的转换包括编码格式转换、大小写转换、重定义、重载列等。

(二)清洗步骤

源系统可接受的数据质量程序依据数据仓库要求的质量而不同。

数据质量的处理包括以下几个独立的步骤:有效值检测、一致性检测、删除重复记录、检测是否有复杂的业务规则和过程需要增强等。

数据清洗转换可能需要人为的干预和判断。

数据清洗步骤的结果往往是半永久保存的。

(三)规格化步骤

当多个数据源合并到数据仓库时就需要数据规格化。

数据规格化的过程比简单的数据清洗重要的多,数据规格化需要在顶层确定统一的标准规范,包括口径和度量。

(四)提交步骤

后台任务的终点就是准备好数据以方便查询。

提交步骤至关重要的是将数据物理地组织成简单、对称的维度模型,这种框架大大降低了查询时间、简化了开发过程。

维度模型是构建OLAP立方体的必要基础。

建议将维度模型作为每个数据仓库后台的最终目标。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/16239395/viewspace-764793/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/16239395/viewspace-764793/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
.下载频道>资源分类>数据库>其它>数据仓库(Building The Data Warehouse中文版) 数据仓库(Building The Data Warehouse中文版)资源大小:6.69MB 上传日期:2011-06-07 资源积分:1分 下载次数:8 上 传 者:lzhoufly 标  签: 数据仓库 Data Warehouse 中文版 分 享 到: 收藏 评论 - 资源简介本书论述在设计和建造数据仓库中涉及的所有主要问题,论述分析型环境(决策支持系统环境)以及在这种环境中的数据构造。主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。 本书主要是面向数据仓库的设计、开发和管理人员,以及构造和使用现代信息系统的人员,也适于信息处理方面的高校师生和从事传统数据库系统技术工作的人阅读。 目录: 目录 译者序 审、译者简介 前言 第1章 决策支持系统的发展 1 1.1 演化 1 1.2 直接存取存储设备的产生 2 1.3 个人计算机/第四代编程语言技术 3 1.4 进入抽取程序 3 1.5 蜘蛛网 4 1.6 自然演化体系结构的问题 5 1.6.1 数据缺乏可信性 5 1.6.2 生产率问题 8 1.6.3 从数据到信息 10 1.6.4 方法的变迁 11 1.7 体系结构设计环境 12 1.7.1 体系结构设计环境的层次 13 1.7.2 集成 14 1.8 用户是谁 15 1.9 开发生命周期 15 1.10 硬件利用模式 16 1.11 建立重建工程的舞台 16 1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 2.6 样本数据库 34 2.7 数据分割 35 2.8 数据仓库中的数据组织 37 2.9 数据仓库—标准手册 41 2.10 审计和数据仓库 41 2.11 成本合理性 41 2.12 清理仓库数据 42 2.13 报表和体系结构设计环境 42 2.14 机遇性的操作型窗口 43 2.15 小结 44 第3章 设计数据仓库 45 3.1 从操作型数据开始 45 3.2 数据/过程模型和体系结构设计环境 49 3.3 数据仓库和数据模型 50 3.3.1 数据模型 52 3.3.2 中间层数据模型 54 3.3.3 物理数据模型 58 3.4 数据模型和反复开发 59 3.5 规范化/反规范化 60 3.6 数据仓库中的快照 65 3.7 元数据 66 3.8 数据仓库中的管理参照表 66 3.9 数据周期 67 3.10 转换和集成的复杂性 70 3.11 触发数据仓库记录 71 3.11.1 事件 72 3.11.2 快照的构成 72 3.11.3 一些例子 72 3.12 简要记录 73 3.13 管理大量数据 74 3.14 创建多个简要记录 75 3.15 从数据仓库环境到操作型环境 75 3.16 正常处理 75 3.17 数据仓库数据的直接访问 76 3.18 数据仓库数据的间接访问 76 3.18.1 航空公司的佣金计算系统 76 3.18.2 零售个性化系统 78 3.18.3 信用审核 80 3.19 数据仓库数据的间接利用 82 3.20 星型连接 83 3.21 小结 86 第4章 数据仓库中的粒度 87 4.1 粗略估算 87 4.2 粒度划分过程的输入 88 4.3 双重或单一的粒度? 88 4.4 确定粒度的级别 89 4.5 一些反馈循环技巧 90 4.6 粒度的级别—以银行环境为例 90 4.7 小结 95 第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言接口 99 5.9 数据的高效装入 99 5.10 高效索引的利用 100 5.11 数据压缩 101 5.12 复合键码 101 5.13 变长数据 101 5.14 加锁管理 102 5.15 单独索引处理 102 5.16

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值