Spoon使用文档
-- General Availability Release 5.4.0.1-130 中文版
一.概念
a) kjb文件称为‘作业’。完成ETL前期准备工作,如测试数据库连接,下载文件,获取配置等等。
b) ktr文件称为‘转换’。完成ETL数据转换工作,如数据转换,数据校验,Insert/Update数据库等等。
c) 通常的用法是一个kjb,运行多个ktr。
二.作业
a) 新建作业后,在‘主对象树’中有4个文件夹:DB连接,作业项目,Hadoop Clusters,子服务器。
i. DB连接:配置数据库连接。可通过配置文件,${crawler.db.host}的方式传递数值。如何加载配置文件,请看‘通用-设置变量’。
ii. 作业项目:主要业务流程在这里实现。当在‘核心对象’中任意拖出一个对象到设计面板后,该对象会出现在‘作业项目’中。
iii. Hadoop Clusters:集群配置。
iv. 子服务器:子服务器配置。
b) 作业属性
i. 点击右边的‘设计面板’空白处弹出。
c) 核心对象
i. 通用
1. START:作业调度器,可设置定时执行功能。(一般作为作业的第一个执行对象)。
2. DUMMY:空操作。
3. 作业:可调用另一个作业。
4. 设置变量:属性文件名中,可通过ctrl+alt+space,获取系统参数,如${Internal.Job.Filename.Directory},然后加载配置文件,如:config.properties。变量范围表示,可选择‘在根作业中有效’,那么在 被执行的ktr中也能使用加载的配置文件了。默认选项应该也是可以。
5. 转换:也就是ktr文件