Ketlle

13 篇文章 0 订阅

http://www.cnblogs.com/limengqiang/archive/2013/01/16/KettleApply1.html

ETL利器Kettle实战应用解析系列一【Kettle使用介绍】

本系列文章主要索引如下:

一、ETL利器Kettle实战应用解析系列一【Kettle使用介绍】

二、ETL利器Kettle实战应用解析系列二 【应用场景和实战DEMO下载】

三、ETL利器Kettle实战应用解析系列三 【ETL后台进程执行配置方式】

本文主要阅读目录如下:

1、Kettle概念

2、下载和部署

3、Kettle环境配置

4、Kettle使用及组件介绍

 

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我介绍一个我在工作中使用了3年左右的ETL工具Kettle,本着好东西不独享的想法,跟大家分享碰撞交流一下!在使用中我感觉这个工具真的很强大,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,其中最主要的我们通过熟练的应用它,减少了非常多的研发工作量,提高了我们的工作效率,不过对于我这个.net研发者来说唯一的遗憾就是这个工具是Java编写的。

1、Kettle概念

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

2、下载和部署

žKettle可以在 http://kettle.pentaho.org/网站下载
ž
ž下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可

3、Kettle环境配置(有Java环境的直接忽略此章节)

3、1 安装java JDK

1)首先到官网上下载对应JDK包,JDK1.5或以上版本就行;

2)安装JDK;

3)配置环境变量,附配置方式:

安装完成后,还要对它进行相关的配置才可以使用,先来设置一些环境变量,对于Java来说,最需要设置的环境变量是系统路径变量path。

(1)要打开环境变量的设置窗口。右击“我的电脑”,在弹出的快捷菜单中选择“属性”选项,进入“系统属性”对话框,如图所示。选择“高级”标签,进入“高级”选项卡,再单击“环境变量”按钮,进入“环境变量”对话框,如图所示:

(2)在“Administrator的用户变量”列表框中,选择变量PATH,待其所在行变高亮后,单击“编辑”按钮,如图所示。

(3)在弹出的“编辑系统变量”对话框中,将JDK安装路径下的bin目录路径设置到Path变量中,如图所示。

编辑完后,单击“确定”按钮,进行保存,环境变量Path的设置就正式完成。

注意:设置Path变量的路径,必须是JDK安装目录中的bin目录,有时候在JDK安装目录的同一层会有JRE的安装目录,因此请谨慎选取相关路径,避免将路径设置成JRE目录下的bin目录。

3、2 测试JDK配置是否成功

设置好环境变量后,就可以对刚设置好的变量进行测试,并检测Java是否可以运行。

(1)单击“开始”按钮,选择“运行”选项,在“运行”对话框中输入cmd命令。

(2)之后单击“确定”按钮,打开命令行窗口。

(3)在光标处输入:javac命令,按下Enter键执行,即可看到测试结果

3、3 运行Kettle

ž进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat或Kettle.exe文件,出现如下界面:
这样配置环境这一块基本上就完成了。
4、Kettle使用及组件介绍
ž4.1 Kettle使用
Kettle提供了资源库方式的方式来整合所有的工作,但是因为资源库移植不方便,所以我们选择没有资源库;
1)创建一个新的transformation,点击 保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestTrans,kettle默认transformation文件保存后后缀名为ktr;
2)创建一个新的job,点击 保存到本地路径,例如保存到D:/etltest下,保存文件名为EtltestJob,kettle默认job文件保存后后缀名为kjb;
4.2 组件树介绍

 

 

Main Tree菜单列出的是一个transformation中基本的属性,可以通过各个节点来查看。

 

DB连接:显示当前transformation中的数据库连接,每一个transformation的数据库连接都需要单独配置。

 

Steps:一个transformation中应用到的环节列表

 

Hops:一个transformation中应用到的节点连接列表                            

 

Core Objects菜单列出的是transformation中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。

 

Input:输入环节

Output:输出环节

Lookup:查询环节

Transform:转化环节

Joins:连接环节

Scripting:脚本环节

 

 

 

 
 
 
 
      
4.3 Transformation转换介绍
ž每一个环节可以通过鼠标拖动来将环节添加到主窗口中。
ž并可通过shift+鼠标拖动,实现环节之间的连接。
ž转换常用环节介绍

类别

环节名称

功能说明

Input

文本文件输入

从本地文本文件输入数据

表输入

从数据库表中输入数据

获取系统信息

读取系统信息输入数据

Output

文本文件输出

将处理结果输出到文本文件

表输出

将处理结果输出到数据库表

插入/更新

根据处理结果对数据库表机型插入更新,如果数据库中不存在相关记录则插入,否则为更新。会根据查询条件中字段进行判断

更新

根据处理结果对数据库进行更新,若需要更新的数据在数据库表中无记录,则会报错停止

删除

根据处理结果对数据库记录进行删除,若需要删除的数据在数据库表中无记录,则会报错停止

Lookup

数据库查询

根据设定的查询条件,对目标表进行查询,返回需要的结果字段

流查询

将目标表读取到内存,通过查询条件对内存中数据集进行查询

调用DB存储过程

调用数据库存储过程

Transform

字段选择

选择需要的字段,过滤掉不要的字段,也可做数据库字段对应

过滤记录

根据条件对记录进行分类

排序记录

将数据根据某以条件,进行排序

空操作

无操作

增加常量

增加需要的常量字段

Scripting

Modified Java Script Value

扩展功能,编写JavaScript脚本,对数据进行相应处理

Mapping

映射(子转换)

数据映射

Job

Sat Variables

设置环境变量

Get Variables

获取环境变量

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4.3 Job任务介绍
 

 

Main Tree菜单列出的是一个Job中基本的属性,可以通过各个节点来查看。

 

DB连接:显示当前Job中的数据库连接,每一个Job的数据库连接都需要单独配置。

 

Job entries:一个Job中引用的环节列表

         

Job entries菜单列出的是Job中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。

 

每一个环节可以通过鼠标拖动来将环节添加到主窗口中。

 

并可通过shift+鼠标拖动,实现环节之间的连接。

      
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ž常用环节介绍

类别

环节名称

功能说明

Job entries

START

开始

DUMMY

结束

Transformation

引用Transformation流程

Job

引用Job流程

Shell

调用Shell脚本

SQL

执行sql语句

FTP

通过FTP下载

Table exists

检查目标表是否存在,返回布尔值

File exists

检查文件是否存在,返回布尔值

Javascript

执行JavaScript脚本

Create file

创建文件

Delete file

删除文件

Wait for file

等待文件,文件出现后继续下一个环节

File Compare

文件比较,返回布尔值

Wait for

等待时间,设定一段时间,kettle流程处于等待状态

Zip file

压缩文件为ZIP包

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Kettle是一款开源的数据集成工具,常用于数据抽取、转换和加载等ETL(Extract, Transform, Load)操作。Kettle基于Java开发,可运行在不同的操作系统上,包括Linux系统。 在Linux系统中,可以使用以下命令来操作Kettle: 1. kitchen: 运行Kettle中的作业(Job)。可以使用该命令执行已经在Kettle中编写好的作业,实现数据的抽取、转换和加载等操作。例如,可以使用"kitchen.sh -file=/home/user/job.kjb"来执行名为"job.kjb"的作业文件。 2. pan: 运行Kettle中的转换(Transformation)。可以使用该命令执行已经在Kettle中编写好的转换,实现数据的处理和转换等操作。类似于"kitchen"命令,可以使用"pan.sh -file=/home/user/trans.ktr"来执行名为"trans.ktr"的转换文件。 3. carte: 启动Kettle的远程服务。可以使用该命令启动Kettle的远程执行模式,使多个客户端可以通过网路访问并执行Kettle作业或转换。 4. spoon: 运行Kettle的图形化界面。可以使用该命令启动Kettle的图形化界面,通过拖拽和连接组件的方式进行作业和转换的设计和编辑。 5. kitchen.sh / pan.sh / spoon.sh -help: 查看Kettle命令的帮助信息。可以使用该命令来获取各个命令的使用方法和参数说明。 除了以上这些常用命令,Kettle还提供了丰富的命令和参数选项,用于控制各个作业和转换的详细执行流程。通过对Kettle的命令行操作,可以实现自动化的数据集成和处理任务,提高工作效率和数据质量。 ### 回答2: Kettle是一款强大的开源ETL工具,用于数据仓库的建立和数据转换过程的实现。在Linux系统中,我们可以使用一些常见的命令来使用和管理Kettle。 1. ./spoon.sh:这是启动Kettle可视化开发环境的命令。通过这个命令,可以打开Kettle的图形化界面,进行ETL作业的开发和管理。 2. ./pan.sh:这个命令用于执行Kettle的转换作业。通过指定转换作业的文件路径,可以在命令行中直接运行Kettle的转换作业,实现数据的转换和处理。 3. ./kitchen.sh:这个命令用于执行Kettle的作业。与pan.sh命令类似,但kitchen.sh命令用于执行Kettle的作业,而不是转换作业。通过指定作业文件的路径,可以在命令行中运行Kettle的作业。 4. ./carte.sh:这个命令用于启动Kettle的服务模式。通过在命令行中运行carte.sh命令,可以将Kettle作为服务在后台运行,以便实现作业和转换的远程执行和管理。 5. ./pan.sh -file:这是一个在命令行中执行指定转换作业的命令。通过指定转换作业的文件路径,可以在命令行中直接执行该转换作业,并查看执行结果。 这些是使用Kettle的常用命令,可以通过这些命令来操作和管理Kettle的作业和转换,在Linux系统中更方便地进行ETL过程的实现和数据仓库的建立。 ### 回答3: Linux Kettle 是一款功能强大的开源ETL工具,用于数据集成和转换。下面是一些Linux Kettle 常用命令: 1. kitchen: 该命令用于运行作业(Job)文件,可通过指定作业文件的路径来执行。例如,kitchen /path/to/job.kjb。 2. pan: pan 命令用于运行转换(Transformation)文件,也可以通过指定转换文件的路径来执行。例如,pan /path/to/transform.ktr。 3. kitchencmd: 该命令与 kitchen 相似,但可以在命令行界面(CLI)中使用更多选项来控制作业的执行。例如,kitchencmd -job="/path/to/job.kjb" -param:PARAM_NAME=param_value。 4. pancmd: 与 pan 类似,但可以在 CLI 中使用更多选项来控制转换的执行。例如,pancmd -trans="/path/to/transform.ktr" -param:PARAM_NAME=param_value。 5. carte: 用于启动一个 Kettle 远程服务器(Carte),该服务器可以执行作业和转换。例如,carte.sh /path/to/carte-config.xml。 6. spoon: 该命令可启动 Kettle 的可视化开发环境(Spoon),用于可视化设计作业和转换。例如,spoon.sh。 7. kitchen.sh: 类似于 kitchen,但在 Linux 上使用。例如,kitchen.sh -file="/path/to/job.kjb"。 8. pan.sh: 类似于 pan,但在 Linux 上使用。例如,pan.sh -file="/path/to/transform.ktr"。 9. ktrsplitter.sh: 该命令用于将复杂的转换文件拆分为多个较小的转换文件。例如,ktrsplitter.sh -file="/path/to/transform.ktr" -targetFolder="/path/to/output"。 这些命令是 Linux Kettle 中一些常用的命令,可帮助用户在 Linux 系统中执行作业和转换任务。这些命令的使用可以通过查看 Kettle 的官方文档和使用手册中的详细说明来进一步学习和了解。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值