介绍
ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环,也是工作量较大的一块。Kettle是ETL中其中一个开源工具,基于纯Java开发。
kettle有两种脚本transformation(转换)和Job(作业)
Kettle有三个主要组件:Spoon、Kitchen、Pan
Spoon:是一个图形化的界面,可以让我们用图形化的方式开发转换和作业。windows选择Spoon.bat;Linux选择Spoon.sh
Kitchen:利用Kitchen可以使用命令行调用Job
Pan:利用Pan可以用命令行的形式调用Trans
Carte:Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server。
声明
1.Kettle最早叫做Kettle,后来该名为PDI,不过大多数人还是习惯于叫Kettle
2.我们这里使用的版本是最新的Kettle 8.1的版本
3.说明一下Kettle的帮助文档可以在Spoon中找到,如果有任何问题可以去帮组文档中查找
运行PDI Client(Spoon)
PDI Client启动分为两种:一种是安装包方式安装,然后在菜单栏中启动,这种方式并不是我们想要的。另外一种是通过解压zip包,然后通过启动脚本spoon.bat或者spoon.sh启动Spoon。
如果正确启动,则出现的主界面应该是下面这样的。
界面整体功能的介绍在Spoon的帮助文档中有详细的介绍,