ETL之Kettle学习笔记——初始Kettle
ETL介绍
ETL即Extract-Transform-Load的缩写,意为数据抽取、转换和装载,ETL是数据仓库的核心和灵魂,是负责完成数据从源数据向目标数据仓库转化的过程,是实施数据仓库的重要步骤。说得直白一点就是数据清洗和装载的一个过程。
ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过清洗,最终按照预先定义好的数据仓库模型,将数据装载到数据仓库中去。
Kettle介绍
ETL是数据抽取、转换、装载的过程,那么Kettle就是操作这个ETL过程的工具。
Kettle是一款国外免费开源的、可视化的、功能强大的ETL工具,纯Java编写,可在Windows、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。它允许你管理来自不同数据库的数据和各种文件格式(txt、excel等)的抽取。
现在Kettle已加入了开源的BI组织Pentaho,正式命名为Pentaho Data Integeration(PDI)。
Kettle拥有两种脚本,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle家族四大工具
-
Spoon–转换(transformation)设计工具,一个图形化的工具,它使一个ETTL过程转换的设计易于创建。它执行典型的数据流功能,如读取,验证,优化,转换,将数据写入各种不同的数据源和目标。Spoon中设计的转换(transformations)可以与Pan和Kitchen一起运行,转换(transformation)是通过Pan工具运行,任务(Job)是通过Kitchen运行。
-
Pan–转换(transformation)执行器(命令行模式),是专用于运行Spoon设计的数据转换的应用程序,例如:从不同的数据源读取、操作和写入数据。
-
Chef–工作(job)设计工具,一种用于创建作业的工具,可以以复杂的方式自动执行数据库更新过程。
-
Kitchen–工作(job)执行器(命令行模式),是一个应用程序,可帮助你以批处理方式执行Job,通常使用时间表来简化启动和控制ETL处理的过程。
在Kettle加入Pentaho组织后,Pentaho Data Integration加了一个组件
- Carte–Web服务器,允许通过Web浏览器远程监视正在运行的Pentaho Data Integration ETL流程。
Kettle的安装
-
下载
Kettle v8.2下载地址https://sourceforge.net/projects/pentaho/files/Pentaho%208.2/client-tools/pdi-ce-8.2.0.0-342.zip/download
-
安装
解压即可
-
启动
点击spoon.bat即可启动
注:若出现闪退或没有反应,可能是由于jdk版本问题,我的jdk是1.8版本,没有问题
-
启动页面
- 启动成功