ETL以及Kettle介绍
一. ETL介绍
- ETL概念介绍
ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要环节。而数据仓库中可能存在着大量的噪声数据,引起的原因主要有:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值等。如果其中存在大量的噪声数据,该数据就没有任何意义了。ETL也是BI/DW(商业智能/数据仓库)的核心和灵魂,是负责完成数据从数据源到目标数据仓库转换的过程,也是实施数据仓库的步骤。
ETL主要包含以下三个方面:
抽取:将数据从各种业务系统中读取出来。
转换:按预先设计好的规则将抽取的数据进行转换,使得本来异构的数据格式统一起来。
装载:将转换完的数据按计划增量或全部导入数据仓库中。
- ETL的作用
因为目前运行的应用系统是用户花费了很大的精力和财力构建的、不可替代的系统,尤其系统中的数据是非常宝贵的。但是由于不同原始数据库中的数据的来源、格式不一样,导致了系统实施、数据整合出现问题。ETL就是用来解决这一问题的。
二Kettle
2.1kettle 介绍
在ETL开源项目中,Kettle当属翘首,是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。项目的名字的意思是水壶,根据该项目的作者matt的说法:把各种数据放在一个壶里,然后以一种你希望的格式输出。
Kettle 也叫 PDI,在 2006 年 kettle 加入了开源的 BI 组织 Pantaho,正式命名为PDI(PantahoData Integeration),而 kettle 是“ Kettle E.T.T.L.Envirnoment”的缩写。kettle 是一款国外开源的 ETL(ExtractTransform Load)工具,纯 java 编写,可以在 Window、Linux、 Unix 上运行,绿色无需安装, 被设计用来抽取、转换、装入和加载数据, 可以形象的理解为将各种数据放入到一个壶里面然后以一种指定的格式流出来。
2.2 kettle包含的产品
Kettle家族目前包括4个产品:Spoon、Pan、CHEF、Kitchen: