-
3.3.8 唯一行(哈希值)
-
3.3.9 拆分字段
-
3.3.10 列拆分为多行
-
3.3.11 行扁平化
-
3.3.12 列转行
-
3.3.13 行转列
-
3.4 Kettle应用控件
-
- 3.4.1 替换NULL值
-
3.4.2 写日志
-
3.5 Kettle流程控件
-
- 3.5.1 Switch/case
-
3 .5.2 过滤记录
-
3.5.3 空操作
-
3.5.3 中止
-
3.6 Kettle查询控件
-
- 3.6.1 数据库查询
-
3.6.2 流查询
-
3.7 Kettle连接控件
-
- 3.7.1 合并记录
-
3.7.2 记录集连接
-
3.8Kettle统计控件
-
- 3.8.1 分组
-
3.9 Kettle映射控件
-
3.9.1 映射
-
3.10 Kettle脚本控件
-
- 3.10.1执行SQL脚本
-
第4章 Kettle作业
-
- 4.1 作业简介
-
- 4.1.1作业项
-
4.1.2 作业跳
-
4.2 作业初体验
-
第5章 Kettle使用案例
-
- 5.1 转换案例
-
5.2 作业案例
-
第6章 Kettle资源库
-
- 6.1 数据库资源库
-
第7章 Kettle调优
-
第八章 案例数据和ETL开发岗位资料下载
===========================================================================
ETL (Extract-Transform-Load 的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种ETL工具的使用,必不可少。
市面上常用的ETL工具有很多,比如Sqoop,DataX, Kettle, Talend 等,作为一个大数据工程师,我们最好要掌握其中的两到三种,这里我们要学习的ETL工具是Kettle!
==============================================================================
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、 Unix.上运行,绿色无需安装,数据抽取高效稳定。
Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle(现在已经更名为PDI, Pentaho Data Integration Pentaho数据集成)
简述:
-
Transformation (转换) :完成针对数据的基础转换。
-
Job (作业) :完成整个工作流的控制。
区别:
-
(1) 作业是步骤流,转换是数据流。这是作业和转换最大的区别。
-
(2)作业的每一个步骤,必须等到前面的步骤都跑完了,后面的步骤才会执行;而转换会一次性把所有控件全部先启动(一个控件对应启动一个线程),然后数据流会从第一个控件开始,一条记录、一条记录地流向最后的控件;
-
Spoon.bat / spoon.sh(重点):是一个图形化界面,可以让我们用图形化的方式开发转换和作业(Windows选择Spoon.bat;Linux选择Spoon.sh)
-
Pan.bat / pan.sh:利用Pan可以用命令行的形式执行由Spoon编辑的转换和作业
-
Kitchen.bat / kitchen.sh:利用Kitchen可以使用命令调用由Spoon编辑好的Job
-
Carte.bat / Carte.sh:Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server
================================================================================
2.1.1 下载地址
官网:官网地址
下载地址:各版本下载链接
百度网盘:百度网盘地址 ,提取码:beeo
2.1.2 Kettle目录说明
2.1.2 Kettle 文件说明
2.2.1 概述
在实际企业开发中,都是在本地Windows环境下进行 kettle 的 job 和 Transformation 开发的,可以在本地运行,也可以连接远程机器运行
2.2.2 安装
1)安装 jdk,版本建议1.8及以上
2)下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可
3)双击Spoon.bat,启动图形化界面工具,就可以直接使用了
2.3.1 主界面
2.3.2 转换
2.3.3 作业
体验案例:将 csv 文件用 Kettle 转换成 excel 文件
1)在 Kettle 中新建一个转换,然后选择转换下面的 “csv文件输入” 和 “excel文件输出” 拖至工作区
2)双击CSV文件输入文件控件,在弹出的设置框里找到对应的csv文件(test.csv).然后点击下面的获取字段按钮,将我需要的字段加载到kettle中
3)按住键盘 shift 键,并且点击鼠标左键将两个控件链接起来,链接时选择 “主输出步骤”
4)双击Excel输出控件,在弹出的设置框里设置文件输出路径和文件名称,然后点击上的字段框,依次点击下面的获取字段和最小宽度,获取到输出字段
5)点击运行,启动,查看转换好的文件
转换成功: