转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换中的步骤是通过跳连接的。跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。
点击输入创建一个转换
主对象树中的节点主要用于显示当前转换的运行配置参数、数据库连接、步骤以及节点连接(跳)等信息。单机树形列表的核心对象,切换到转换的核心界面。转换到核心界面。
大多数的etl项目都需要完成各式各样的维护工作。例如:传送文件,验证数据库的数据表是否存在等操作,这些操作必须按一定顺序完成由于转换时按并行方式执行,因此需要一个可以串行执行的作业处理这些操作。
一个作业包含一个或多个作业项并且这些作业都是以某种形式执行的作业的执行的顺序由作业项之间的跳和每个作业项之间的结果执行所决定。
在Kettle主界面的工作区右击空白处,从弹出的快捷菜单中选择“新建记录”命令,并添加注释的内容;然后单击“通用”,将Start和“作业”依次拖曳到Kettle的工作区;选择“邮件”,建立一个“发送邮件”到Kettle的工作区;然后建立Start和“作业”之间的连接,再通过同样的操作将“作业”与“作业”、“作业”与“发送邮件”之间也建立连接。