Kettle入门教程(详细介绍控件使用方法)本手册主要是对Kettle工具的功能进行详细说明以及如何操作该系统,适合所有使用该系统的人员。
服务查询
数据库查询
数据库连接
流查询
调用存储过程
转换
增加
增加检查和
分析查询
被冻结的步骤
闭包生成器
数据检测
延迟行
标记流中最后一行
流中元数据结构
设置为空值
行止规化
分离行
值映射
分组
去除重复记录
增加常量
增加序列
字段选择
拆分字段
排序记录
空操作
行扁平化
行转列
计算器
过滤记录
5.7连接
合并记录
记录关联(笛卡尔输出)
脚木
执行却本
数据仓库
维度更新查询
联合更新查询
块射
映射(子转换)
映射输入规范
怏射输出规范
作业
获得变量
设置变量
从结果获取记录
复制记录到结果
内联
实验
不推荐的
聚合记录
任务核心对象
通用
中断任务
显示消息对话框
任务
文本输出
邮件
文件管理
向结果中添加文件名
比较文件夹
拷贝文件
拷贝或移动结果文件名
新建文什夹
新建文件
删除文件
从结果集中删除文件名
删除文件
删除文什夹
文件比较
文件鮮压缩
等待文件
文件打包
条件
检查文件火是否为空
检查文件是否存在
检查数据库表中的列是否存在
检查文件存在
检查表是否存在
等待
脚木
批量加载
批量从
中加载数据至文件
从文件中向
数据库中批量加载
从文件中向
数据库中批量加载
文件传输
资源库
实验
概述
Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里然后以
种指定的格式流出。 Kettle主要包括四部分,分别为Cef, Spoon, Kitchen,Pan。 Kettle
提供·个图形用户界面Spon,用来设计数据转换过程。在Spon中,用户可以使用左面的
组件树,在右血的面板中设计转换流程,并在 Log View面板中查看运行结果。该文章介绍
了图形用户界面Spon中各组件的使用
资源库管理
o pentaho
apen source business intellgence"
Pentaho Data Integration
欢迎使用Kete
资源厍Ket1a2y1x
登录: admin
启动时显示这个对语框
u)匚取逍也一匚没有资海
登陆时可以选择没有资源库即可进入,此时所定义的转换和工作将只能存储在本地
磁盘上,以文件和文件的方式。若使用资源库登录,则所有定义的转换和工作将会
存储到资源库里。实际上,资源库就是一个数据库,比如
数据库,里面存储了
定义的元素的相关元数据,简单而言,就是元数据库。如果资源库创建完毕,则资源
痄的相关信息将仔储在文件“ repositories.xml”中,它位于你的缺省home目录的隐藏目
录“. kettle”中。如果是 windows系统,这个路径就是
c:\ Documents andSettings\username>\ kettle
新建资源库
)新建到资源库的的数据库连接新建][编辑】[除
点击新建按钮,弹出以下对话框
资源库信息
白回区
选择数据库连接
新建[編辑删除
名称
描述
确定⑩)匚创建或更新[删[取消〔)
数据库连接是让我们选择数据库连接,这里意思为我们可以在木地数据库新建一个或多个
数据库比如
数据库倣资源库,然后连接到该资源库表示资源库的名字
我们最初没有资源库,则点击
选择数据厍连接
迴編辑[进除
新建按钮,新建一个数据库做资源库连接,注意前提是(
为例)已存在该数据库
如何建立到数据库的连接:
()我们首先以在
下创建的
数据库为例,我们选择
方式连接到
。首先配置
数据库的
源
用户Dsx系统S文件Dx|亚动程序|跟连招
系统数据源〕
名称
厄动程序
ttesT
()点击新建按钮,做如下设置。点击编辑按钮可以编辑这个连接。删除则删除该连接
Connection tame
cor政 et tlelyl
Crne□tior
S
ettins
ODBC IS Source tame
KettleZyk
nter systems Cach
KingbaseES
ser ame
Luci dDB
ns A
Password
Max DB (SAP DB
MonetDB
MS叽
Oracle RDB
latabaseMeta. report. ConnectionDk
Pao OlaF Server
Iatabaselet
t.Pat!1521
Remedy Action Request System
Databaseleta. rep ort. Iatab aseNamelkettlelyk
Native〔mE
L确定一
)创建资源库
选择好刚创建的数据库连接,填写好资源库名称,点击匚创啦更新按钮创建新资演库
弹出
ODiC RHIEG
Please ae care, using ODBC is not officially supported for
Lect
lease CUlsider using a N live (DIC] cullet Lill
Do you still want to continue
匚是本
意思是“对于资源库用
连接支持不是很好,最好用本地连接”,因为资派库对
方式支持不是很好,最好使用木地连接。我们继续,弹出:
确定
你确信要创建这个资源库在这个指定数据库连接
匚是匚否凹
意思为在这个数据库连接下创建资源库,即在
数据库中创建资源库
选择是,弹出:
Dry run?
Do you want to do a dry
to eval
a的d三LbeE0 re execut1or
是①[否的)
“你是否想做次演练以在执行之前评价产生的语句”。意思为创建资源库这个过程执
行之前您是否想看看这个创建过程的具体语句(因为创建资源厍就是在
数据
库中创建表,它询问我们要不要看这些建表的语句)
我们选择“否”,则直接创建资源库,完成后弹出:
确定
Kett1e创建dthe资源库在制定的数据库连接
匚确定
我们选择“是”,则弹出语句对话框,里面显示的是创建所有表和插入相关数据的
语句
d Sinple SQL editor
QL statements, separated br semi color
Reposi tory creation/upgrade DDL
thing was c工 ated nor od工f立ed1 n the ta卫9et卫e口口st〔
Hit the ok button to execute the generated SQl or Cl
P1 ease note that1t1spss工上1et口 change/ edit the cen
CREATE TABLE F REPOSITORY LOG
工 D REPOSITORY工0GB工G工 I PRII五RYE置
REP TERSIO矗RCH矗R(255
L0 G DATE D盈 TETIIE
LOG USER W矗RCHR(255
OPERATION DESC TERT
CREATE T矗B工E卫 WERSLON
工DERs工0下B工G工T卫R工 HART KET
过 AJOR VERSIO工rT
M工 R TERO工o工T
UPGRADE DATE DATETIEE
IS UPGRADE C丑AR(1
L
EXecute[ lear cache关闭〔
点击关闭则退出创建资源厍的过程,点击
则清空数据厍缓存,点击
执行这些语句创建资源库
Results of the SQL statements
回区
The SQl statements had the following results
SQl executed: INSERT INTO R PROFILE PERMISSION(ID PROFILE A
SQL executed:工sET工 TO R PROF工工 E PERMISSIO( ID PROF工
SQL executed: INSERT INTO R PROFILE PERMISSION(ID PROFILE
173 SQL statements executed
我们回过头来看这些语句,我们发现它不仅创建了表,还向表中插入了相关的数据,我
们看到有几行语句是,
CREATE TABLE R PROF工LE
工 D PROFLLE BIG工 NT PRIMARY KEY
NAME VARCHAR(255)
DESCRIPTION VARCHAR (255)
INSERT INTO R PROFILE (ID PROFILE, NAME DESCRIPTION) VALUES
(I,'Administrator ,'Administrator profile, manage users
INSERT INTO R PROFILE (ID PROFTLE, NAME DESCRIPTION) VALUES (2 'User''Normal
user all tools)i