Kettle 使用教程(1)—入门

大数据的开发过程中使用的是Kettle为6.1.0版本

简介

Kettle是一款纯Java开发的ETL工具,它是跨平台的,所以它可以在Window、Linux、Unix上运行。注意什么是ETL,读者可以自行百度了解,我的理解是将一个数据库的数据导入到另外一个数据库中,当让这种说法并不严谨,因为数据传输过程中肯定还有很多转换步骤。我们可以在它的官网上下载最新的工具包,也可以在Github上面下载Kettle的源码。

启动Kettle界面

我们从官网下载Kettle的压缩包之后解压到自己想要的目录中,我们可以看到Kettle中根目录叫做data-integration,打开这个文件夹我们可以看到很多脚本,因为我们是在Windows下使用,所以主要关注.bat结尾的脚本。

上面我标示出了四个主要的.bat文件,其中Spoon.bat是与用户界面有关的,我们点击Spoon.bat就可以启动Kettle的用户界面了。 (ps:忘记说了,Kettle是Java写的,所以请务必配置好jdk,不然肯定无法正常使用的)

新建转换(Transformation)

现在假设我们要新建一个转换,它实现的功能是将MySQL中的两张表做Join操作,然后将处理的结果集写入到目标表中,我们来看看如何实现这些步骤。

  • 我们点击菜单栏的文件->新建->转换

  • 新建一个转换之后会打开一个画布,我们可以在上面添加步骤(Step)

    在左边我标红的地方有很多文件夹,这些文件夹中有很多不同功能的组件,比如我们首先要从源表一中抽取数据,这个步骤在表输入目录下,我们可以点击表输入文件夹来看看。

    这个表输入组件我们可以直接拖入到右边的画布中。

  • 编辑表输入 双击上面的表输入步骤会弹出下面这个对话框

    上面的表输入对话框中有很多可以修改的属性,有些我也不是很清楚,我将我了解到的说明一下吧。 步骤名称:该属性应该很好理解,就是该步骤的一个名称,但要注意的是一个转换中的步骤名称应该全局唯一,不能重复。 数据库连接:这个我们新建一个数据库连接,可以选取我们要抽取数据的表 SQL:这个面板中的SQL是根据你数据连接中选中的表动态生成的 记录数量限制:这个属性指的是从源表中抽取多少条数据,默认为0表示数量没有限制,会将源表中所有的数据给抽取出来。

    • 添加JDBC驱动到Kettle的目录 我这里连接的是MySQL,所以需要添加MySQL的JDBC驱动,要注意的是,添加驱动之后需要重启Kettle才能生效。 
  • 新建数据库连接 点击对话中的新建按钮

    填写数据库连接的一些信息,并点击测试,看是否连接成功,如果有异常看自己的信息是否填写正确,数据库的驱动是否有问题。

    这一步做好之后点击“获取SQL查询语句”,选取我们需要的表。

    选中表之后会有一个提示框出来

    点击是就会在SQL面板中生成新的SQL语句,我的最终显示结果如下:

    我们可以点击预览按钮,预览一下我们表中的数据。

    这是一个表输入步骤算是完成了,按照上面的步骤我们再新建一个表输入步骤,这里就不再叙述了。

  • 新建记录集连接

    记录集连接这个步骤可以实现两张表的join操作,记录集连接在连接目录中,将其拖入到画布中。

    接着我们要将“表输入”和“表输入2”连接到“记录集连接”这个步骤上,连接两个步骤的操作方法如下: 按住shift键,将鼠标箭头移至“表输入”上,然后按住鼠标左键并将箭头拖动到记录集连接上,这是一条连线就可以创建成功。 同理连接“表输入2”到“记录集连接”,最终效果如下:

    这是我们在点击“记录集连接”步骤,编辑相关属性

    上面的操作很清晰,首先选取第一个步骤,然后选取第二个步骤,接着点击对应步骤的获取连接字段,比如我们这里要选取第一个步骤的s_id字段,第二个步骤的s_id字段,两个表通过这个字段做inner join操作。 我们可以通过右键来删除不需要的字段:

    修改好之后点击确定:

*新建表输出步骤

将表输入步骤拖入到画布中,表输出步骤在输出目录中

编辑表输出步骤

这里要注意的是,要点击下面的SQL按钮,他会创建或者修改目标表,如果不点这一步的话因为目标表可能不存在或者字段不对应会导致数据插入异常。

  • 保存步骤并运行 点击画布上的小三角会弹出运行的对话框,然后点击启动,任务就会执行。

运行结果

转换运行完成之后界面如下所示:

  • 日志 日志里面记录了一些运行信息,其中有几个比较关键的输出信息: I:表示从表中读取了多少条数据 O:表示向目标表中写入了多少条数据 R:从之前的步骤中读取了多少条数据 W:向下一个步骤写入了多少条数据 上面的解释可能比较晦涩,因为这涉及到Kettle的数据流向,在后面的文章中我会结合源码进行解释。

  • 预览数据 Kettle可以预览每一个Step的部分数据,方便我们进行查看步骤之间的运行情况

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Kettle工具使用 培训教程 目录 ETL 简介 KETTLE 简介 KETTLE 安装和运行 KETTLE 菜单简介 KETTLE 案例讲解 控件介绍 日志介绍 一、ETL 简介 ETL 概念简介 ETL相关的质量特性 ETL 在数据仓库项目中的位置 二、kettle 工具简介 Kettle是一款国外开源的ETL工具, 纯java编写,可以在Window、 Linux、Unix上运行,数据抽取高效 稳定 Kettle中有两种脚本文件, transformation(转换)和job (作业),transformation完成 针对数据的基础转换,job则完 成整个工作流的控制。 Kettle 工具的模型架构 kettle 工具的优缺点 优点: 系统开源、免费 安装方便、图形化安装 支持多种数据源 支持多种字符集 具有简单的权限管理 支持各种复杂数据转换 缺点 稳定性差 性能差 缺乏元数据管理 KETTLE 的下载 Kettle可以在 http://kettle.pentaho.org/网站下载 下载kettle压缩包,因kettle为绿色软 件,解压缩到任意本地路径即可 Kettle 运行步骤 双击运行 kettle 文件夹下的 Kettle 文件,出 现 kettle 欢迎界面。 创建资料库(可省略) 创建数据库连接 创建转换 创建Jobs,进行流程化控制 KETTLE使用 进入到Kettle目录,如果Kettle部署在windows环 境下,双击运行spoon.bat文件,出现如下界面: Kettle 使用步骤 (1)创建转换 大概的来说一般由三步组成: 输入+转换等中间步骤+输出 (2)创建作业 将已经创建好的转换和相关的作业组件串联起来, 形成一个整体的任务。 Kettle 的执行顺序 作业:分串行执行和并行执行,串行执行是先执行完其中一条线再执 行另一条线,并行是两条线同时执行,同一条线上的两个步聚会先执 行前面的再执行后面的。每个步骤执行结果分两种:true(成 功)/false(失败),根据返回结果可以控制流程走向。 转换:一开始所有步骤同时运行,记录会从最前端的步骤向后传递, 传递到相应步骤则该记录被该步骤作相应处理,处理完成再把记录往 后传递,记录传递分复制和分发两种模式。 KETTLE 的目录介绍 根目录文件夹介绍: 【Docs】存放Kettle各种语言版本的API文档。 【 Launcher 】存放Kettle Spoon加载的一些配置信息。 【 Lib 】存放Kettle使用到的第三方jar包。比如:数据库驱动包, 如缺少时需要把对应的数据库驱动包放入此文件夹中。 【 Libswt 】存放Kettle对应不同平台的相关UI jar包。 【 Plugins 】存放Kettle自定义插件时,需要把自定义好的插件打成 jar放在此目录。 【 Pwd 】存放Kettle配置集群时所需要的配置文件与加密文件。 【 Samples 】存放Kettle自带的一些Job与Trans实例。 【 Simple-jndi 】存放Kettle使用JNDI方式连接数据源方式的文件 存放目录。目录下的jdbc.properties配置文件中有相应的实例提供 参考。 【 Ui 】存放Kettle初始化使用到的图片及配置信息。 Kettle 菜单介绍-transformation Main Tree菜单列出的是一个 transformation中基本的属性, 可以通过各个节点来查看。 DB连接:显示当前transformation 中的数据库连接,每一个 transformation的数据库连接都需要 单独配置。 Steps:一个transformation中应用 到的环节列表 Hops:一个transformation中应用 到的节点连接列表 转换的菜单介绍: Kettle 菜单介绍-transformation Core Objects菜单列出的是 transformation中可以调用 的环节列表,可以通过鼠标 拖动的方式对环节进行添加。 Input:输入环节 Output:输出环节 Lookup:查询环节 Transform:转化环节 Joins:连接环节 Scripting:脚本环节 转换的菜单介绍: Kettle 菜单介绍-transformation 每一个环节可以通过鼠标拖动来将环节添加到主窗 口中。 并可通过shift+鼠标拖动,实现环节之间的连接。 Kettle 菜单介绍-transformation 转换的常用环节介绍: Kettle 菜单介绍-job Main Tree菜单列出的是一 个Job中基本的属性,可以 通过各个节点来查看。 DB连接:显示当前Job中的数据 库连接,每一个Job的数据库连接 都

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值