数据仓库

系统架构 同时被 2 个专栏收录
183 篇文章 10 订阅
7 篇文章 0 订阅

数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、且随时间变化的数据集合,用于支持管理决策。

主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据
进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,
但修改和删除操作很少,通常只需要定期地加载、刷新。

数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息。

数据仓库反映历史变化的属性主要表现在:
    数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限,数据仓库中的数据时间期限往往为数年甚至几十年。
    数据仓库中的数据仅仅是一系列某一时刻(可能是传统操作型数据系统)生成的复杂的快照;
    数据仓库中一定会包含时间元素。

数据库与数据仓库的差异
   从数据存储的内容看,数据库只存放当前值,而数据仓库则存放历史值;数据库数据的目标是面向业务操作人员的,为业务处理人员提供数据处理的支持,而数据仓库则是面向中高层管理
人员的,为其提供决策支持等。

数据仓库的结构
从数据仓库的概念结构看,一般来说,数据仓库系统要包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库及各种管理工具和应用工具,如图 3-10 所示。数据仓库建立之后,首先要从数据源中抽取相关的数据到数据准备区,在数据准备区中经过净化处理后再加载到数据仓库数据库,最后根据用户的需求将数据导入数据集市和知识挖掘库中。当用户使用数据仓库时,可以利用包括 OLAP(On-Line Analysis Processing,联机分析处理)在内的多种数据仓库应用工具向数据集市/知识挖掘库或数据仓库进行决策查询分析或知识挖掘。数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。

数据仓库框架由数据仓库基本功能层、数据仓库管理层和数据仓库环境支持层组成。

 

数据仓库基本功能层。

       数据仓库的基本功能层部分包含数据源、数据准备区、数据仓库结构、数据集市或知识挖掘库,以及存取和使用部分。

数据仓库管理层。

     数据仓库管理层由数据仓库的数据管理和数据仓库的元数据管理组成。
    数据仓库的数据管理层包含数据抽取、新数据需求与查询管理,数据加载、存储、刷新和更新系统,安全性与用户授权管理系统及数据归档、恢复及净化系统等四部分。

数据仓库的环境支持层。

      数据仓库的环境支持层由数据仓库数据传输层和数据仓库基础层组成。
 

数据仓库架构图:

  • 10
    点赞
  • 1
    评论
  • 76
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

第1章 决策支持系统的发展 1.1 演化 1.2 自然演化式体系结构的问题 1.3 开发生命周期 1.4 硬件利用模式 1.5 为重建工程创造条件 1.6 监控数据仓库环境 1.7 小结 第2章 数据仓库环境 2.1 数据仓库的结构 2.2 面向主题 2.3 第1天到第n天的现象 2.4 粒度 2.5 探查与数据挖掘 2.6 活样本数据库 2.7 分区设计方法 2.8 数据仓库中的数据组织 2.9 审计与数据仓库 2.10 数据的同构/异构 2.11 数据仓库中的数据清理 2.12 报表与体系结构化环境 2.13 各种环境中的操作型窗口 2.14 数据仓库中的错误数据 2.15 小结 第3章 设计数据仓库 3.1 从操作型数据开始 3.2 数据/过程模型与体系结构化环境 3.3 数据仓库数据模型 3.4 数据模型与迭代式开发 3.5 规范化/反向规范化 3.6 元数据 3.7 数据周期——时间间隔 3.8 转换和集成的复杂性 3.9 数据仓库记录的触发 3.10 概要记录 3.11 管理大量数据 3.12 创建多个概要记录 3.13 从数据仓库环境到操作型环境 3.14 数据仓库数据的直拉操作型访问 3.15 数据仓库数据的间接访问 3.16 数据仓库数据的间接使用 3.17 星形连接 3.18 支持操作型数据存储 3.19 需求和Zachman框架 3.20 小结 第4章 数据仓库中的粒度 4.1 粗略估算 4.2 规划过程的输入 4.3 溢出存储器中的数据 4.4 确定粒度级别 4.5 一些反馈循环技巧 4.6 确定粒度级别的几个例子 4.7 填充数据集市 4.8 小结 第5章 数据仓库和技术 5.1 管理大量数据 5.2 管理多种介质 5.3 索引和监控数据 5.4 多种技术的接口 5.5 程序员/设计者对数据存放位置的控制 5.6 数据的并行存储和管理 5.7 语言接口 5.8 数据的有效装裁 5.9 有效利用索引 5.10 数据压缩 5.11 复合主键 5.12 变长数据 5.13 加锁管理 5.14 只涉及索引的处理 5.15 快速恢复 5.16 其他的技术特征 5.17 DBMS类型和数据仓库 5.18 改变DBMS技术 5.19 多维DBMS和数据仓库 5.20 在多种存储介质上构建数据仓库 5.21 数据仓库环境中元数据的角色 5.22 上下文和内容 5.23 刷新数据仓库 5.24 测试问题 5.25 小结 第6章 分布式数据仓库 第7章 主管信息系统和数据仓库 第8章 外部数据数据仓库 第9章 迁移到体系结构化环境 第10章 数据仓库和Web 第11章 非结构化数据数据仓库 第12章 大型数据仓库 第13章 关系模型和多维模型数据库设计基础 第14章 数据仓库高级话题 第15章 数据仓库的成本论证和投资回报 第16章 数据仓库和ODS 第17章 企业信息依从准则和数据仓库 第18章 最终用户社区 第19章 数据仓库设计的复查要目
学习数据仓库的好书,很经典。 目录: 目录 译者序 审、译者简介 前言 第1章 决策支持系统的发展 1 1.1 演化 1 1.2 直接存取存储设备的产生 2 1.3 个人计算机/第四代编程语言技术 3 1.4 进入抽取程序 3 1.5 蜘蛛网 4 1.6 自然演化体系结构的问题 5 1.6.1 数据缺乏可信性 5 1.6.2 生产率问题 8 1.6.3 从数据到信息 10 1.6.4 方法的变迁 11 1.7 体系结构设计环境 12 1.7.1 体系结构设计环境的层次 13 1.7.2 集成 14 1.8 用户是谁 15 1.9 开发生命周期 15 1.10 硬件利用模式 16 1.11 建立重建工程的舞台 16 1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 2.6 样本数据库 34 2.7 数据分割 35 2.8 数据仓库中的数据组织 37 2.9 数据仓库—标准手册 41 2.10 审计和数据仓库 41 2.11 成本合理性 41 2.12 清理仓库数据 42 2.13 报表和体系结构设计环境 42 2.14 机遇性的操作型窗口 43 2.15 小结 44 第3章 设计数据仓库 45 3.1 从操作型数据开始 45 3.2 数据/过程模型和体系结构设计环境 49 3.3 数据仓库数据模型 50 3.3.1 数据模型 52 3.3.2 中间层数据模型 54 3.3.3 物理数据模型 58 3.4 数据模型和反复开发 59 3.5 规范化/反规范化 60 3.6 数据仓库中的快照 65 3.7 元数据 66 3.8 数据仓库中的管理参照表 66 3.9 数据周期 67 3.10 转换和集成的复杂性 70 3.11 触发数据仓库记录 71 3.11.1 事件 72 3.11.2 快照的构成 72 3.11.3 一些例子 72 3.12 简要记录 73 3.13 管理大量数据 74 3.14 创建多个简要记录 75 3.15 从数据仓库环境到操作型环境 75 3.16 正常处理 75 3.17 数据仓库数据的直接访问 76 3.18 数据仓库数据的间接访问 76 3.18.1 航空公司的佣金计算系统 76 3.18.2 零售个性化系统 78 3.18.3 信用审核 80 3.19 数据仓库数据的间接利用 82 3.20 星型连接 83 3.21 小结 86 第4章 数据仓库中的粒度 87 4.1 粗略估算 87 4.2 粒度划分过程的输入 88 4.3 双重或单一的粒度? 88 4.4 确定粒度的级别 89 4.5 一些反馈循环技巧 90 4.6 粒度的级别—以银行环境为例 90 4.7 小结 95 第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言接口 99 5.9 数据的高效装入 99 5.10 高效索引的利用 100 5.11 数据压缩 101 5.12 复合键码 101 5.13 变长数据 101 5.14 加锁管理 102 5.15 单独索引处理 102 5.16 快速恢复 102 5.17 其他的技术特征 102 5.18 DBMS类型和数据仓库 102 5.19 改变DBMS技术 104 5.20 多维DBMS和数据仓库 104 5.21 双重粒度级 109 5.22 数据仓库环境中的元数据 109 5.23 上下文和内容 111 5.24 上下文信息的三种类型 111 5.25 捕获和管理上下文信息 113 5.26 刷新数据仓库 113 5.27 小结 114 第6章 分布式数据仓库 116 6.1 引言 116 6.2 局部数据仓库 118 6.3 全局数据仓库 119 6.4 互斥数据 121 6.5 冗余 123 6.6 全
©️2021 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值