BI Dev--ETL Introduce

Chap 1 认识 ETL

focus on :

  1. Know What's ETL?

  2. Know ETL 在 BI 开发中注意的细节

1-1 ETL 简介

  1. ETL 是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。

  2. ETL 是构建 DW 的重要一环,用户从数据源抽取出数据,经 数据清洗,按照预定义好的 DW模型,将数据加载到 DW 中去。

  3. ETL 是将业务系统的数据经过抽取、清洗转换之后加载到 DW 的过程,目的是将企业中的分散零乱、标准不统一的数据到一起,为企业的决策提供分析依据。

  4. ETL 是 BI 项目中一个重要环节。

ETL的设计分三个部分:

  1. 数据抽取

  2. 数据的清洗转换

  3. 数据的加载

下面看流程图:
图片描述

一、数据抽取

首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行的是何种DBMS,是否存在手工数据, 非结构化数据等。

二、数据清洗与转换

数据仓库分为ODS,DW连部分。通常的做法是从业务系统到ODS做清洗,将脏数据和不完整的数据过滤掉,在ODS到过程中转换,进行一些业务规则的计算和聚合。

1. 数据清洗

主要是过滤那些不符合要求的数据。

  1. 不完整的数据

  2. 错误的数据

  3. 重复的数据

2. 数据转换

数据转换的任务主要进行不一致的数据转换、数据粒度的转换

三、数据的加载

一般在数据清洗完了之后直接写入DW

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值