转换是 ETL 解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换中的步骤是通过眺连接的跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在 Kettle 中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。
下面通过一个简单的例子详细讲解 Kettle 中的转换。
1. 双击Kettle目录下的Spoon.bat脚本,启动Kettle工具,在工具栏处选择“文件”→“新建”→“转换”命令,创建一个转换,名称默认为“”
图1 创建转换
2.如图2所示,选择“文件”→“保存”命令,可以对转换进行重命名以及选择保存路径,这里我重命名为example,
图2 重命名为example
在图3中,主对象树中的节点主要用于显示当前转换的运行配置参数、数据库连接、步骤以及节点连接(跳)