2.1.2 Kettle 文件说明
2.2.1 概述
在实际企业开发中,都是在本地Windows环境下进行 kettle 的 job 和 Transformation 开发的,可以在本地运行,也可以连接远程机器运行
2.2.2 安装
1)安装 jdk,版本建议1.8及以上
2)下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可
3)双击Spoon.bat,启动图形化界面工具,就可以直接使用了
2.3.1 主界面
2.3.2 转换
2.3.3 作业
体验案例:将 csv 文件用 Kettle 转换成 excel 文件
1)在 Kettle 中新建一个转换,然后选择转换下面的 “csv文件输入” 和 “excel文件输出” 拖至工作区
2)双击CSV文件输入文件控件,在弹出的设置框里找到对应的csv文件(test.csv).然后点击下面的获取字段按钮,将我需要的字段加载到kettle中
3)按住键盘 shift 键,并且点击鼠标左键将两个控件链接起来,链接时选择 “主输出步骤”
4)双击Excel输出控件,在弹出的设置框里设置文件输出路径和文件名称,然后点击上的字段框,依次点击下面的获取字段和最小宽度,获取到输出字段
5)点击运行,启动,查看转换好的文件
转换成功:
2.5.1 可视化编程
Kettle可以被归类为可视化编程语言,因为Kettle可以使用图形化的方式定义复杂的ETL程序和工作流。
可视化编程一直是Kettle里的核心概念,它可以让你快速构建复杂的ETL作业和减低维护工作量。它通过隐藏很多技术细节,使IT领域更贴近于商务领域。
Kettle里的代码就是转换和作业。
2.5.2 转换
转换(transaformation)负责数据的输入、转换、校验和输出等工作。Kettle 中使用转换完成数据 ETL 全部工作。转换由多个步骤(Step)组成,如文本文件输入,过滤输出行,执行SQL脚本等。各个步骤使用跳(Hop)(连接箭头) 来链接。跳定义了一个数据流通道,即数据由一个步骤流(跳)向下一个步骤。在 Kettle中数据的最小单位是数据行(row),数据流中流动其实是缓存的行集(RowSet)
2.5.3 步骤
步骤(控件)是转换里的基本的组成部分,快速入「]的案例中就存在两个步骤,“CSV文件输入” 和 “Excel输出”。
一个步骤有如下几个关键特性:
-
1.步骤需要有一个名字,这个名字在同一个转换范围内唯一
-
2.每个步骤都会读、写数据行(唯一例外是 “生成记录”步骤,该步骤只写数据
-
3.步骤将数据写到与之相连的一个或多个输出跳(hop),再传送到跳的另一端的步骤。
-
4.大多数的步骤都可以有多个输出跳。–个步骤的数据发送可以被设置为分发和复制,
分发是目标步骤轮流接收记录,复制是所有的记录被同时发送到所有的目标步骤
2.5.4 跳(Hop)
跳就是步骤之间带箭头的连线,跳定义了步骤之间的数据通路
跳实际上是两个步骤之间的被称之为行集的数据行缓存,行集的大小可以在转换的设置里定义。当行集满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。当行集空了,丛行集读取数据的步骤停止读取,直到行集里又有可读的数据行
2.5.5 元数据
每个步骤在输出数据行时都有对字段的描述,这种描述就是数据行的元数据。
通常包含下面一些信息:
-
名称:数据行里的字段名是唯一的。
-
数据类型:字段的数据类型。
-
格式:数据显示的方式,如 Integer 的 #、0.00
-
长度:字符串的长度或者 BigNumber 类型的长度。
-
精度:BigNumber数据类型的十进制精度。
-
货币符号:¥
-
小数点符号:十进制数据的小数点格式。不同文化背景下小数点符号是不同的,一般是点“.”或 逗号“,”
-
分组符号:数值类型数据的分组符号,不同文化背景下数字里的分组符号也是不同的,一般是点“.”或逗号“,”或单引号 ’
2.5.6 数据类型
数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合,字段包含下面几种数据类型。
-
String:字符类型数据
-
Number:双精度浮点数。
-
Integer:带符号长整型(64位)。
-
BigNumber:任意精度数据。
-
Date:带毫秒精度的日期时间值。
-
Boolean:取值为true和false的布尔值。
-
Binary:二进制字段可以包含图像、声音、视频及其他类型的二进制数据。
2.5.7 并行
跳的这种基王行集缓在的规则允许每个步骤都是由一个独立的线程运行,这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里,我们经常要处理大量数据,所以这种高并发低消耗的方式也是 ETL 工具的核心需求。
对于 kettle 的转换,不能定义一个执行顺序,因为所有步骤都以并发方式执行:当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输出跳,直到输入跳里不再有数据,就中止步骤的运行。当所有的步骤都中止了,整个转换就中止了。
如果你想要一个任务沿着指定的顺序执行,那么就要使用下面所讲的“作业”!
2.5.8 作业
作业(Job),负责定义一个完成整个工作流的控制,比如将转换的结果发送邮件给相关人员。因为转换(transformation) 以并行方式执行,所以必须存在一个串行的调度工具来执行转换,这就是Kettle 中的作业。
===============================================================================
输入是转换里面的第一个分类, 输入控件也是转换中的第一大控件, 用来抽取数据或者生成数据。输入是ETL里面的E (Extract),主要做数据提取的工作。
由于Kettle中自带的输入控件比较多,本文只挑出开发中经常使用的几个输入控件来进行讲解,详情如下图: