Kettle 背景知识 – ETL
- 抽取(Extract):一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是 ETL 解决方案的成功实施的一个主要障碍。
- 转换(Transform):任何对数据的处理过程都是转换。这些处理过程通常包括(但不限于)下面一些操作:移动数据根据规则验证数据数据内容和数据结构的修改将多个数据源的数据集成 根据处理后的数据计算派生值和聚集值
- 加载(Load):将数据加载到目标系统的所有操作。
- 概念扩展:ELT,EII(Enterprise information integration)/Data federation
Kettle 概述
Pentaho Data Integration(Kettle)是一款开源的ETL(Extract Transformation Load) 工具,用来完成数据的抽取,清洗、转换和加载等数据处理方面的工作。
Kettle下载
选择版本下载
https://sourceforge.net/projects/pentaho/files/Data%20Integration/
7.x版本直接下载
https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.0/pdi-ce-7.0.0.0-25.zip/download
环境说明
配置jdk环境变量 本文 jdk1.8
安装
将解压下载好压缩文件到指定目录,如:E:\Program Files\data-integration,即可完成安装.
配置kettle环境变量
变量名 KETTLE_HOME 变量值 例如 C:\kettle\data-integration
Kettle 基本使用
Kettle 基本使用 Kettle 的几个子程序的功能和启动方式在压缩包根目录下
Spoon.bat: 图形界面方式启动作业和转换设计器。windows下打开图形界面
Pan.bat: 命令行方式执行转换。
Kitchen.bat: 命令行方式执行作业。
Carte.bat: 启动web服务,用于 Kettle 的远程运行或集群运行。
Encr.bat: 密码加密
基本使用
- 转换和作业
转换的步骤树
例子:生成随机数到文本文件
输入
操作
- 文本文件输出
点击生成随机数按住shift按住鼠标左键连接到文本输出才会有关联,点击箭头会会有灰色效果,灰色不执行,亮色会执行
输出操作
执行
保存转换文件
查看转换的数据文件
- 预览功能不用输入到文件
选择生成随机数
选择字段选择
启动
这就只是显示一列
增加字段
预览
- 生成指定条数据相当于开多少个线程
流程
生成10个随机数 a字段大于0.5的写入文本