转换的基本概念及操作
一个数据抽取主要包括创建一个作业,并且每个作业可以包括多个转换操作,此数据抽取操作可以通过kettle工具完成,也可以通过编写程序调用的方式实现。
转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换中的步骤是通过跳连接的。跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。
双击kettle目录下的spoon.bat脚本,启动kettle工具,在工作栏处选择“文件”→“新建”→“转换”命令,创建一个转换,名称默认是转换1
主对象树中的节点主要用于显示当前转换的运行配置参数、数据库连接、步骤以及节点连接(跳)等信息。单机树形列表的核心对象,切换到转换的核心界面。转换到核心界面。
在kettle界面的工作区右击空白处,从弹出的快捷菜单中选择“新建注释”命令,并添加注释内容;然后单击“输入”,将“表输入”拖拽到kettle的工作区;单击“输出”将“文本文件输出”拖拽到kettle工作区;按住Ctrl键的同时