福州大学苏立超老师《大数据库系统》第五章复习提纲“数据仓库”

第五章:数据仓库与数据挖掘(数据仓库定义,特征,数据库和数据仓库(理解和掌握)基本结构简单了解,相关概念很重要,数据仓库与数据挖掘简单了解)

一. 数据仓库的定义:数据仓库是一个将数据转换成信息,使其能及时供最终用户使用的过程

二. 数据仓库的特征

  1. 数据仓库的数据是面向主题的:为特定的数据分析领域提供数据支持
  2. 数据仓库的数据是集成的:数据为分析服务,必须从多个数据源中获取
  3. 数据仓库的数据是非易失的:数据是经过抽取而形成的分析型数据
  4. 数据仓库的数据是随时间不断变化的:数据以一定时间段为单位进行统一更新

三.数据仓库和传统数据库系统的主要区别

  1. 主要任务不同:传统数据库系统主要执行联机事务,数据仓库在数据分析和决策支持方面提供服务
  2. 数据内容不同:数据库系统管理当前数据,数据仓库管理大量的历史存档数据,提供汇总和聚集机制,在不同粒度级别上存储和管理信息
  3. 数据目标不同:数据库系统面向业务操作,数据仓库面向主题
  4. 数据特性不同:数据库系统存储当前数据,数据动态变化;数据仓库中数据是批量载入的静态的,定期更新
  5. 数据结构不同:数据库系统采用面向应用的数据库设计,高度结构化和复杂的形式组织数据;数据仓库采用面向主题的数据组织模式,以适应分析决策,数据结构简单
  6. 支持的查询不同:数据库系统可以快速回答、简单查询;数据仓库需要回答更复杂的查询
  7. 数据组织模式不同:数据库系统信息分散在各子系统之中;数据仓库强调形成主题一致的信息集合
    在这里插入图片描述
    在这里插入图片描述

四.数据仓库的相关概念

  1. ETL:数据抽取、转换、加载工具
  2. 数据提取:数据仓库按分析的主题组织数据,只提取系统分析必需的数据
  3. 数据转换:将不同格式的数据转换成统一的数据格式
  4. 数据清洗:将错误不一致的数据进行更正删除,以免影响系统决策的正确性
  5. 数据加载:将数据按物理数据模型定义的表结构装入数据仓库
  6. 元数据:描述数据的数据,是数据仓库的中枢;元数据管理是数据仓库中的关键组件,贯穿了数据仓库的整个生命周期
    元数据包括:
    a) 数据仓库结构的描述信息:数据的维、层次结构、数据定义
    b) 操作元数据:数据血统信息、数据流通信息、监视信息
    c) 汇总用的算法:度量与维定义算法,数据主题、聚集、汇总等算法
    d) 操作环境到数据仓库的映射信息:源数据库和内容,程序描述,数据处理规则
    e) 关于系统性能的数据信息
    f) 商务元数据
  7. 数据集市:更小更集中的数据仓库,为公司提供分析商业数据,针对某个应用,数据粒度粗,便于访问和分析、快速查询
  8. 维度:观察数据的特定角度
  9. 数据粒度:对数据仓库中的数据综合程度高低的一个度量
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值