kettle-基本使用

Kettle 背景知识 – ETL

  • 抽取(Extract):一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是 ETL 解决方案的成功实施的一个主要障碍。
  • 转换(Transform):任何对数据的处理过程都是转换。这些处理过程通常包括(但不限于)下面一些操作:移动数据根据规则验证数据数据内容和数据结构的修改将多个数据源的数据集成 根据处理后的数据计算派生值和聚集值
  • 加载(Load):将数据加载到目标系统的所有操作。
  • 概念扩展:ELT,EII(Enterprise information integration)/Data federation

Kettle 概述

Pentaho Data Integration(Kettle)是一款开源的ETL(Extract Transformation Load) 工具,用来完成数据的抽取,清洗、转换和加载等数据处理方面的工作。

Kettle下载

选择版本下载

https://sourceforge.net/projects/pentaho/files/Data%20Integration/

7.x版本直接下载

https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.0/pdi-ce-7.0.0.0-25.zip/download

环境说明

配置jdk环境变量  本文 jdk1.8

安装

将解压下载好压缩文件到指定目录,如:E:\Program Files\data-integration,即可完成安装.

配置kettle环境变量

变量名 KETTLE_HOME 变量值 例如 C:\kettle\data-integration

Kettle 基本使用

Kettle 基本使用 Kettle 的几个子程序的功能和启动方式在压缩包根目录下

Spoon.bat:  图形界面方式启动作业和转换设计器。windows下打开图形界面

Pan.bat:    命令行方式执行转换。

Kitchen.bat: 命令行方式执行作业。

Carte.bat:   启动web服务,用于 Kettle 的远程运行或集群运行。

Encr.bat:    密码加密

基本使用

  • 转换和作业

转换的步骤树

例子:生成随机数到文本文件

输入

操作

  • 文本文件输出 

点击生成随机数按住shift按住鼠标左键连接到文本输出才会有关联,点击箭头会会有灰色效果,灰色不执行,亮色会执行

输出操作

 

执行

保存转换文件

查看转换的数据文件

  • 预览功能不用输入到文件

选择生成随机数

选择字段选择

启动

这就只是显示一列

增加字段

预览

  • 生成指定条数据相当于开多少个线程

流程

生成10个随机数 a字段大于0.5的写入文本

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值