ETL与kettle介绍

本文介绍了ETL的原理和作用,以及Kettle——一款强大的开源ETL工具。Kettle包含Spoon、Pan、Chef、Kitchen四个产品,分别用于图形化设计、批处理执行、任务创建和批处理任务执行。Kettle支持多种数据处理步骤,如输入、输出、转换等,可用于数据仓库的高效稳定数据抽取、转换和加载。
摘要由CSDN通过智能技术生成

ETL以及Kettle介绍

一.   ETL介绍

  • ETL概念介绍

  ETL即数据抽取Extract)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要环节。而数据仓库中可能存在着大量的噪声数据,引起的原因主要有:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值等。如果其中存在大量的噪声数据,该数据就没有任何意义了。ETL也是BI/DW(商业智能/数据仓库)的核心和灵魂,是负责完成数据从数据源到目标数据仓库转换的过程,也是实施数据仓库的步骤。

ETL主要包含以下三个方面:

抽取:将数据从各种业务系统中读取出来。

转换:按预先设计好的规则将抽取的数据进行转换,使得本来异构的数据格式统一起来。

装载:将转换完的数据按计划增量或全部导入数据仓库中。

  •  ETL的作用

因为目前运行的应用系统是用户花费了很大的精力和财力构建的、不可替代的系统,尤其系统中的数据是非常宝贵的。但是由于不同原始数据库中的数据的来源、格式不一样,导致了系统实施、数据整合出现问题。ETL就是用来解决这一问题的。

二Kettle

2.1kettle 介绍

ETL开源项目中,Kettle当属翘首,是一款国外开源的ETL工具,纯java编写,可以在WindowLinuxUnix上运行,数据抽取高效稳定。项目的名字的意思是水壶,根据该项目的作者matt的说法:把各种数据放在一个壶里,然后以一种你希望的格式输出。

Kettle 也叫 PDI,在 2006 年 kettle 加入了开源的 BI 组织 Pantaho,正式命名为PDI(PantahoData Integeration),而 kettle 是“ Kettle E.T.T.L.Envirnoment”的缩写。kettle 是一款国外开源的 ETL(ExtractTransform Load)工具,纯 java 编写,可以在 Window、Linux、 Unix 上运行,绿色无需安装, 被设计用来抽取、转换、装入和加载数据, 可以形象的理解为将各种数据放入到一个壶里面然后以一种指定的格式流出来。

2.2 kettle包含的产品

Kettle家族目前包括4个产品:SpoonPanCHEFKitchen

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值