数据仓库与数据挖掘(第三版)陈文伟思维导图 第二章 数据仓库原理(整理复习)

  • 第二章 数据仓库原理

    • 2.1 数据仓库结构体系

      • 2.1.1 数据仓库结构

        • 近期基本数据

        • 历史基本数据

        • 轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。

        • 高度综合数据层:在轻度综合数据基础上的再一次综合,准决策数据。

      • 2.1.2 数据集市及其结构

        • 1.数据集市的产生

          • DW成本巨大,提供更紧密集成的数据集市应运产生

        • 2.数据集市 (Data Marts)

          • 更小、更集中、具特定应用的DW。

          • 独立数据集市(Independent Data Mart)

          • 从属数据集市(Dependent Data Mart)

        • 3.数据集市与数据仓库差别

          • DW

            • 主题

              • 面向企业范围。

            • 数据组织

              • 第三范式等。

          • 数据集市

            • 主题

              • 面向部门。

            • 数据组织

              • 星型模型。

          • 部门的主题与企业的主题之间可能存在关联,也可能不存在关联。

        • 4.数据集市的特性

          • 规模小、特定应用、面向部门、快速实现、投资快速回收、可升级到完整DW。

        • 5.两种数据集市的结构

      • 2.1.3 数据仓库系统结构

        • 由数据仓库(DW)、仓库管理和分析工具三部分组成。

        • 1、仓库管理

          • (1)数据建模

          • (2)数据抽取、转换、装载(ETL)

            • 70%工作量

          • (3)元数据

            • DW字典,指导ETL,指导用户使用。

          • (4)系统管理

        • 2、分析工具

          • (1)查询工具

            • 可视化工具

          • (2)多维分析工具(OLAP工具)

          • (3)数据挖掘(DM)工具

          • (4)C/S工具

      • 2.1.4 数据仓库运行结构

        • 典型的客户/服务器(C/S)

        • OLAP的三层C/S结构:工作效率更高

    • 2.2 数据仓库的数据模型

      • 数据仓库存储采用多维数据模型。

      • 2.2.1 星型模型

        • 由“事实表”(大表)以及多个“维表”(小表)所组成。

        • 2.2.2 雪花模型与与星网模型

          • 1.雪花模型

            • 对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。

          • 2. 星网模型

            • 将多个星型模型连接起来形成网状结构。

      • 2.2.3 第三范式

        • 传统DB设计理论

          • 减少数据冗余

      • 优势

        • 星型模型

          • 多维数据分析时速度很快

            • 但是增加维度将是很困难的事情。

        • 第三范式

          • 海量数据(如TB级)

          • 大量的动态业务分析

    • 2.3 数据抽取、转换和装载

      • 数据获取需要经过抽取(Extraction)、转换(Transform)、装载(Load)三个过程即ETL过程。

      • 2.3.1 数据抽取

        • (1)确认数据源

        • (2)数据抽取技术

          • 当前值。(数据变化快,数据是否有效?)

          • 周期性的状态。

      • 2.3.2 数据转换

        • 1.数据转换的基本功能(针对DB)

          • 选择、分离/合并、转化、汇总、清晰

        • 2.数据转换类型

        • 3.数据整合和合并

          • 实体识别问题 、多数据源相同属性不同值的问题

        • 4.如何实施转换

          • 自己编写程序实现数据转换、使用转换工具

      • 2.3.3 数据装载

        • (1)数据装载方式

          • 基本装载、追加、破坏性合并、建设性合并

        • (2)数据装载类型

          • 最初装载、增量装载、刷新

      • 2.3.4 ETL工具

        • 1 . 数据转换引擎

        • 2 . 代码生成器

        • 3 . 通过复制捕获数据

    • 2.4 元数据

      • 2.4.1 元数据的重要性

        • 数据字典

      • 2.4.2 关于数据源的元数据

        • 对不同平台上的数据源的物理结构和含义的描述。(如何转换到DW中?)

      • 2.4.3 关于数据模型的元数据

        • 描述了DW中有什么数据以及数据之间的关系。 (用户的数据字典)

      • 2.4.4 关于数据仓库映射的元数据

        • 是数据源与DW数据间的映射。 (获取数据的第一步)

          • 1、抽取工作间的复杂关系。

          • 2.源数据与目标数据之间的映射

            • (1)抽取工作(2)抽取工作步骤(3)抽取表映射(4)抽取属性映射(5)记录筛选规则

      • 2.4.5 关于数据仓库使用的元数据

        • 是DW中信息的使用情况描述。

  • 18
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值