ETL数据抽取工具Kettle的安装配置及使用

一、Kettle介绍

1、kettle是什么

Kettle是一款国外开源的ETL工具,纯java编写,由于java具有跨平台的特性,故Kettle可以在Windows、Linux、Unix上运行,数据抽取高效稳定。

  Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

  Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

2、kettle产品

Kettle目前包括4个产品:Spoon、Pan、CHEF、Kitchen。

SPOON:允许你通过图形界面来设计ETL转换过程(Transformation)。

PAN:允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。

CHEF: 允许你创建任务(Job)。 任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。

KITCHEN:允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。

二、安装步骤

1.安装jdk及配置环境变量

(1)安装jdk

  jdk的安装比较简单,直接下一步就可以了。但是如果需要修改存储路径,则在如下图中所示的步骤中选择安装路径,然后再点击下一步即可。一般默认安装在C盘。

(2)JDK配置环境变量

  右击“此电脑”–属性–高级系统设置-环境变量,在弹出的环境变量页面选择新建系统变量,在新增页面输入变量名和变量值,变量名可根据自己的习惯填写,变量值即为上一步存储的jdk的位置。

变量名:JAVA_HOME

变量值:C:\Program Files\Java\jdk1.8.0_211

  在系统变量中找到Path,选中Path,点击“编辑”,在弹出的编辑环境变量页面点击“新建”,输入:

%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;

在系统变量中找到CLASSPATH,选中Path,点击“编辑”,在弹出的编辑环境变量页面点击“新建”,输入:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;

  在cmd窗口输入java -version,出现如下信息,即为安装成功。

PENTAHO_JAVA_HOME

C:\Program Files\Java\jdk1.8.0_211

2.安装kettle

Kettle的安装比较简单,下载Kettle安装,直接解压即可。然后启动Spoon.bat。如下图。

3.Kettle使用手册

3.1新建转换,更改转换名称,选择转换归属

3.2建立表输入

步骤

1在组件组-输入中找到组件-表输入

2.选择数据库连接(数据源)

3.填写SQL语句,可预览结果

3.3建立表输出

步骤:

1、在组件组-输出中找到组件-表输出

2.建立表输入和表输出的连接

3.选择数据库连接(数据仓库)

4.录入目标表名,指定数据库字段

5.获取字段

6.执行SQL(建表)

3.4建立清理SQL

步骤:

1在组件组-脚本中找到组件-执行SQL脚本

2.选择数据库连接(数据仓库)#此处选择必须谨慎,避免清理了数据源的数据

3.填写SQL语句

4.建立与表输入的关系

3.5测试转换是否能正常工作

3.6新建作业,更改作业名称,选择作业归属

3.7添加组件

步骤:

1在组件组-通用中找到组件-START(作业开始,用于作业调度设置)

2.在组件组-通用中找到组件-转换(如有多个可以多次添加)

3.通过引用指定转换文件

4.在组件组-通用中找到组件-成功(作业结束)

5.按执行顺序建立组件间的关系

案例一:把stu1的数据按id同步到stu2,stu2有相同id则更新数据。

1、需求

把stu1的数据按id同步到stu2,stu2有相同id则更新数据。

2、在mysql中创建两张表并插入一些数据

create table stu1(id int,name varchar(20),age int);

create table stu2(id int,name varchar(20));

insert into stu1 values(1001,'xzw',20),(1002,'fq',18), (1003,'yxy',23);

insert into stu2 values(1001,'lyq');

3、在kettle中新建转换

4、分别在输入和输出中拉出表输入和插入/更新

5、双击表输入对象,填写相关配置信息。

6、双击更新/插入对象,填写相关配置信息

  • 24
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

春化雨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值