ETL

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,因而也称为数据仓库技术。其目的是将分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

可以看出,ETL要做三部分工作,数据抽取、数据的清洗转换和数据的加载。

1. 数据抽取

数据抽取一般是通过工具从各个不同的数据源抽取到一个中间层中,其中可以做一些数据的清洗和转换,这个过程要注意抽取效率。

2. 数据清洗

数据清洗是指将不符合要求的数据除掉,包括错误数据、不完整数据、重复数据。

3. 数据转换

数据转换要做的工作是把所有数据的模板、标准、计算规则等进行统一,如存储结构、数据编码等。

4. 数据加载

清洗转换好的数据按着标准的ETL架构存储到数据仓库中,以备进行数据分析和决策。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值