数据仓库技术(Data Warehouse Technologien) 第四章节 提取,转换,加载 (ETL)(1)

1. 概览

  • ETL过程
  • 从源中提取数据
  • 加载数据
  • 转换任务
  • 模式的异构性
  • 数据错误
  • ELT

2. ETL:概览

  • 两步
    • 从源中到数据清洗区域
      • 从源中提取数据
      • 创建/识别差异更新
      • 创建LOAD文件
    • 从数据清洗区域到基础数据库
      • 数据清洗和标记
      • 生成集成的数据集
    • DWH持续提供数据 
    • 保证DWH与数据源的一致性
  • 必要的有效方法 → 最小化阻塞时间
  • 必要的严谨检测 → 保证数据质量

3. ETL过程

  • 经常是Data  Warehousing中最昂贵(/花销最大)的部分
    • 大量的数据源
    • 异构性
    • 数据量
    • 转换的复杂度
      • 模式集成和实例集成
      • 数据清洗
    • 几乎没有一般通用的方法或者系统支持,但是有着大量的工具可以使用
  • E-提取:选择源中数据的一部分,并且准备转换
  • T-转换:以给定的模式要求和质量需求来调整数据
  • L-加载:将数据搜集区域的数据物理插入到数据仓库(可能有必要的聚合)

------------待更新---------------------

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值