1.Kettle里的数据以数据行的形式,由转换里的步骤来处理。
2.作业项是作业的基本组成部分,每个作业项根据前一个作业项的结果顺序执行。
3.可以在转换或作业里定义数据库连接,可以在数据库等设置对话框里使用参数。
4.kettle有不同类型的资源库,每种资源库都有自己的使用场景。
5.kettle使用灵活的虚拟文件系统,可以访问各种不同位置的文件。
6.通过变量和命名参数可以使转换或者作业更加灵活和易于配置。
7.如何使用可视化编程,如何创建一个转换。
1.Spoon是集成的开发环境,用于创建和设计转换或作业
2.Kitchen和Pan命令行启动程序,分别以命令行方式执行作业和转换
3.Carte是HTTP服务,可以远程执行Kettle作业
4.如何使用Kettle脚本来启动Kettle的程序
5.Kettle的主要配置文件
一、前言
最近由于工作需要,需要用到kettle工具进行数据迁移转换。特意找资料学习了一下,kettle基本操作算是学会了。
所学的也结合实际工作进行了验证。为了防止以后用到忘记了,便写了几篇文章记录一下。
快速上手kettle
二 、ETL简介
ETL ( Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程) 。在企业种我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种 etl工具的使用,对开发人员来说必不可少,这里我要学习的ETL工具是Kettle ! 。
三、Kettle 简介
3.1 kettle是什么?
Kettle 是一款国外的开源ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
顾名思义,Kettle 翻译为中文是水壶,寓意着把所有乱七八糟的数据放到一个壶里,最终以一种指定格式流出
水壶
3.2 kettle两种设计
kettle两种设计
转换和作业
- Kettle中有两种脚本文件,
transformation
和job
,transformation
完成数据基本转换,job
完成整个工作流程的控制 - 转换是数据流,作业是步骤流
- 作业的每一个步骤,必须等待前面的步骤执行完,后面的步骤才会执行。
- 转换会一次性把所有控件都启动(一个控件对应一个线程)
- 数据流会从第一个控件开始,一条记录一条记录的流向最后控件
3.3 kettle核心组件
外国人起名字挺有意思的,kettle的核心组件就是一套烹饪厨具。kettle的作者应该是一位吃货 (●'◡'●)
kettle核心组件
3.4 kettle 优点
kettle 优点
四、Kettle安装
4.1 下载地址
① 官网地址
https://community.hitachivantara.com/docs/DOC-1009855
官网地址国内下载可能很慢很慢,小伙伴们可以通过以下国内镜像地址下载
②国内镜像地址 http://mirror.bit.edu.cn/pentaho/Pentaho%208.2/client-tools/
4.2 kettle目录及文件介绍
目录结构
4.3 kettle 安装
Kettle是java开发的,所以需要安装jdk,我们这里安装经典的jdk8
至于jdk怎么安装,这里就不细说了,如果不知道的小伙伴百度即可
jdk安装完成后,我们将4.1 下载的安装包解压到自己想放置的路径即可
4.4 kettle界面介绍
双击Spoon.bat 即可打开如下界面