kettle学习笔记


前言

Kettle是一款国外免费且开源的ETL工具,ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)。

Kettle中文名叫水壶,纯Java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。


ETL

抽取(Extract):一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是ETL 解决方案的成功实施的一个主要障碍。

转换(Transform):任何对数据的处理过程都是转换。
这些处理过程通常包括(但不限于)下面一些操作:
移动数据
根据规则验证数据
数据内容和数据结构的修改
将多个数据源的数据集成
根据处理后的数据计算派生值和聚集值

加载(Load):将数据加载到目标系统的所有操作。

概念扩展:ELT,EII(Enterprise information integration)/Data federation


一、Kettle 的几个子程序的功能和启动方式

Spoon.bat: 图形界面方式启动作业和转换设计器。
Pan.bat: 命令行方式执行转换。
Kitchen.bat: 命令行方式执行作业。
Carte.bat: 启动web服务,用于Kettle 的远程运行或集群运行。
Encr.bat: 密码加密


二、转换和作业

Kettle 的Spoon 设计器用来设计转换(Transformation)和作业(Job)。
•转换主要是针对数据的各种处理,一个转换里可以包含多个步骤(Step)。
•作业是比转换更高一级的处理流程,一个作业里包括多个作业项(Job Entry),一个作业项代表了一项工作,转换也是一个作业项。

在这里插入图片描述


三、保存作业

用户通过Spoon 创建的转换、作业、数据库连接等可以保存在资源库和XML 文件中。
•转换文件以ktr 为扩展名,作业文件以kjb 为扩展名
•资源库可以是各种常见的数据库。可以在Spoon 中自动创建资源库,资源库默认用户名和密码是admin/admin。


四、输入步骤简介

输入类步骤用来从外部获取数据,可以获取数据的数据源包括,文本文件(txt,csv,xml,json)数据库、Excel 文件等桌面文件,自定义的数据等。对特殊数据源和应用需求可以自定义输入插件。

例子:生成随机数步骤
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
当不需要输出到文件时,可以快速预览
在这里插入图片描述
在这里插入图片描述


选择字段
在这里插入图片描述
在这里插入图片描述


增加常量
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值