大数据技术之Kettle

Kettle数据集成工具详解与实战

大数据技术之Kettle

版本:V2.0

第1章 Kettle概述

1.1 ETL简介

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种ETL工具的使用,必不可少。

市面上常用的ETL工具有很多,比如Sqoop,DataX,Kettle,Talend等,作为一个大数据工程师,我们最好要掌握其中的两到三种,这里我们要学习的ETL工具是Kettle!

1.2 Kettle简介

1.2.1 Kettle是什么

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装数据抽取高效稳定

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么而不是你想怎么做

Kettle中有两种脚本文件,transformationjob,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。

1.2.2 Kettle的两种设计

在这里插入图片描述

1.2.3 Kettle的核心组件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K2wTLJ0L-1657274482496)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps9355.tmp.png)]

1.2.4 Kettle特点

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wdbFeLub-1657274482498)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps9356.tmp.jpg)]

第2章 Kettle安装部署

2.1 Kettle下载

2.1.1 下载地址

官网地址

https://community.hitachivantara.com/docs/DOC-1009855

下载地址

https://sourceforge.net/projects/pentaho/files/Data%20Integration/

2.1.2 Kettle目录说明

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-seWCnn2b-1657274482500)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps9366.tmp.png)]

2.1.3 Kettle文件说明

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8676pd0E-1657274482502)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps9367.tmp.png)]

2.2 Kettle安装部署

2.2.1 概述

在实际企业开发中,都是在本地Windows环境下进行kettle的job和Transformation开发的,可以在本地运行,也可以连接远程机器运行

2.2.2 安装

\1) 安装jdk,版本建议1.8及以上

\2) 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可

\3) 双击Spoon.bat,启动图形化界面工具,就可以直接使用了

2.3 Kettle界面简介

2.3.1 首页

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Wq4281SC-1657274482503)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps9378.tmp.jpg)]

2.3.2 转换

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NIfOBHDP-1657274482505)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps9379.tmp.jpg)]

2.3.3 作业

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u9UYCEOs-1657274482506)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps937A.tmp.jpg)]

2.4 Kettle转换初次体验

体验案例:将csv文件用Kettle转换成excel文件
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PGeX3U79-1657274482507)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps937B.tmp.jpg)]
1) 在Kettle中新建一个转换,然后选择转换下面的“csv文件输入”和“Excel输出”控件
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BkZYf84T-1657274482508)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps938C.tmp.jpg)]
2) 双击CSV文件输入文件控件,在弹出的设置框里找到对应的csv文件(尚硅谷大数据技术之Kettle\5.数据\input\01_kettle快速体验.csv),然后点击下面的获取字段按钮,将我们需要的字段加载到kettle中
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1yniMBtu-1657274482510)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps938D.tmp.jpg)]
3)按住键盘SHIFT键,并且点击鼠标左键将两个控件链接起来,链接时选择“主输出步骤”
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xLHCHEUx-1657274482512)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps938E.tmp.jpg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RLcYyzra-1657274482514)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps938F.tmp.jpg)]
4)双击Excel输出控件,在弹出的设置框里设置文件输出路径和文件名称,然后点击上面的字段框,依次点击下面的获取字段和最小宽度,获取到输出字段。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ack7b6Gw-1657274482516)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps939F.tmp.jpg)] [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-10ZAoBWa-1657274482517)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93A0.tmp.jpg)]
在这里插入图片描述
5)点击左上角的启动按钮,在弹出的设置框里点击启动,执行该转换。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YIU4pDS2-1657274482519)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93A1.tmp.jpg)]
6)查看kettle下方执行结果日志以及输出路径的Excel文件内容
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XQ7eOWUh-1657274482520)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93A2.tmp.jpg)]
在这里插入图片描述

2.5 Kettle核心概念

2.5.1 可视化编程

Kettle可以被归类为可视化编程语言(Visula Programming Languages,VPL),因为Kettle可以使用图形化的方式定义复杂的ETL程序和工作流

可视化编程一直是Kettle里的核心概念,它可以让你快速构建复杂的ETL作业减低维护工作量。它通过隐藏很多技术细节,使IT领域更贴近于商务领域。

Kettle里的代码就是转换作业

2.5.2 转换

转换(transaformation)负责数据的输入、转换、校验和输出等工作。Kettle 中使用转换完成数据 ETL 全部工作。转换由多个步骤 (Step) 组成,如文本文件输入,过滤输出行,执行 SQL 脚本等。各个步骤使用 (Hop) 来链接。 跳定义了一个数据流通道,即数据由一个步骤流 (跳) 向下一个步骤。在 Kettle 中数据的最小单位是数据(row),数据流中流动其实是缓存的行集 (RowSet) 。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aExYbR3q-1657274482525)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93B4.tmp.jpg)]

2.5.3 步骤(Step)

步骤(控件)是转换里的基本的组成部分,快速入门的案例中就存在两个步骤,“CSV文件输入”“Excel输出”

一个步骤有如下几个关键特性:

①步骤需要有一个名字,这个名字在同一个转换范围唯一

②每个步骤都会数据行(唯一例外是“生成记录”步骤,该步骤只写数据)。

③步骤将数据写到与之相连的一个或多个输出跳(hop),再传送到跳的另一端的步骤

④大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为分发复制,分发是目标步骤轮流接收记录,复制是所有的记录被同时发送到所有的目标步骤。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q7z4rfSz-1657274482527)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93B5.tmp.jpg)]       [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bfZponOn-1657274482529)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93C6.tmp.jpg)]
在这里插入图片描述

2.5.4 跳(Hop)

就是步骤之间带箭头的连线,跳定义了步骤之间的数据通路
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Pky99nMU-1657274482530)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93C7.tmp.jpg)]
跳实际上是两个步骤之间的被称之为行集的数据行缓存,行集的大小可以在转换的设置里定义。当行集了,向行集写数据的步骤将停止写入,直到行集里又有了空间。当行集了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0pswcNee-1657274482531)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93C8.tmp.jpg)]

2.5.5 元数据

每个步骤在输出数据行时都有对字段的描述,这种描述就是数据行的元数据

通常包含下面一些信息。

①名称:数据行里的字段名是唯一的。

②数据类型:字段的数据类型。

③格式:数据显示的方式,如Integer的#、0.00。

④长度:字符串的长度或者BigNumber类型的长度。

⑤精度:BigNumber数据类型的十进制精度。

⑥货币符号:¥

⑦小数点符号:十进制数据的小数点格式。不同文化背景下小数点符号是不同的,一般是点(.)或逗号(,)。

⑧分组符号:数值类型数据的分组符号,不同文化背景下数字里的分组符号也是不同的,一般是点(.)或逗号(,)或单引号(’)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W2JD0fgt-1657274482534)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93C9.tmp.jpg)]

2.5.6 数据类型

数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合,字段包含下面几种数据类型。

①String:字符类型数据

②Number:双精度浮点数。

③Integer:带符号长整型(64位)。

④BigNumber:任意精度数据。

⑤Date:带毫秒精度的日期时间值。

⑥Boolean:取值为true和false的布尔值。

⑦Binary:二进制字段可以包含图像、声音、视频及其他类型的二进制数据。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gwxVz5KG-1657274482535)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93D9.tmp.jpg)]

2.5.7 并行

跳的这种基于行集缓存的规则允许每个步骤都是由一个独立的线程运行,这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里,我们经常要处理大量数据,所以这种高并发低消耗的方式也是ETL工具的核心需求。

对于kettle的转换,不能定义一个执行顺序,因为所有步骤都以并发方式执行:当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输出跳,直到输入跳里不再有数据,就中止步骤的运行。当所有的步骤都中止了,整个转换就中止了。

如果你想要一个任务沿着指定的顺序执行,那么就要使用下面所讲的“作业”!

2.5.8 作业

作业 (Job),负责定义一个完成整个工作流的控制,比如将转换的结果发送邮件给相关人员。因为转换(transformation)以并行方式执行,所以必须存在一个串行的调度工具来执行转换,这就是 Kettle中的作业。

第3章 Kettle转换

3.1 Kettle输入控件

输入是转换里面的第一个分类,输入控件也是转换中的第一大控件,用来抽取数据或者生成数据。输入是ETL里面的E(Extract),主要做数据提取的工作。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4oOjyr30-1657274482537)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93DA.tmp.jpg)]
​ 由于Kettle中自带的输入控件比较多,本文只挑出开发中经常使用的几个输入控件来进行讲解,详情如下图。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VcY1ovpO-1657274482538)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93DB.tmp.jpg)]

3.1.1 CSV文件输入

​ CSV文件是一个用逗号分隔的固定格式的文本文件,这种文件后缀名为.csv,可以用Excel或者文本编辑器打开。在企业里面一般最常见的ETL需求就是将csv文件转换为excel文件,如果用Kettle来做这个ETL工作,就需要用到本章节讲解的CSV文件输入控件。

​ 本章节任务:熟悉CSV文件输入控件,并尝试将CSV文件转换成Excel文件(可参考上面的快速体验案例)。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lDPgqFOF-1657274482541)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93EC.tmp.jpg)]
① 步骤名称:可以修改,但是在同一个转换里面要保证唯一性,见名知意;

② 文件名:选择对应的csv文件;

③ 列分隔符:默认是逗号;

④ 封闭符:结束行数据的读写;

⑤ NIO缓存大小:文件如果行数过多,需要调整此参数;

⑥ 包含列头行:意思是文件中第一行是字段名称行,表头不进行读写;

⑦ 行号字段:如果文件第一行不是字段名称或者需要从某行开始读写,可在此输入行号。

⑧ 并发运行?:选择并发,可提高读写速度;

⑨ 字段中有回车换行?:不要选择,会将换行符做数据读出;

⑩ 文件编码:如果预览数据出现乱码,可更换文件编码;

3.1.2 文本文件输入

提取服务器上的日志信息是公司里ETL开发很常见的操作,日志信息基本上都是文本类型,因此文本文件输入控件是kettle中常用的一个输入控件。使用文本文件输入控件步骤:

1) 添加需要转换的日志文件

2) 按照日志文件格式,指定分隔符

3) 获取下字段,并给字段设置合适的格式

4) 最后点下预览记录,看看能否读到数据
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XbDY86fb-1657274482542)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93ED.tmp.jpg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EA5oB2xk-1657274482544)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93EE.tmp.jpg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W1BNQpLx-1657274482546)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93FE.tmp.jpg)]
本章节任务:熟悉文本文件输入控件,并新建转换,将txt日志文件转换为Excel文件
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R1VZsh4W-1657274482547)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps93FF.tmp.jpg)]

3.1.3 Excel输入

Excel输入控件也是很常用的输入控件,一般企业里会用此控件对大量的Excel文件进行ETL操作。使用Excel输入控件步骤如下:

1) 按照读取的源文件格式指定对应的表格类型为xls还是xlsx

2) 选择并添加对应的excel文件

3) 获取excel的sheet工作表

4) 获取字段,并给每个字段设置合适的格式

5) 预览数据
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZbykuPwf-1657274482549)(file:///C:\Users\admin\AppData\Local\Temp\ksohtml\wps9400.tmp.jpg)]

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值