文章目录
1.介绍
1.1 ETL
抽取(Extract)
:一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是ETL解决方案的成功实施的一个主要障碍。转换(Transform)
:任何对数据的处理过程都是转换。这些处理过程通常包括(但不限于)下面一些操作:
移动数据
根据规则验证数据
数据内容和数据结构的修改
将多个数据源的数据集成
根据处理后的数据计算派生值和聚集值加载(Load)
:将数据加载到目标系统的所有操作。
概念扩展:ELT,EII(Enterprise information integration)/Data federation
1.2 Kettle
- Kettle是一款国外开源的
ETL
工具,纯java
编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 - Kettle 中文名称叫
水壶
,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。 - Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
- Kettle中有两种脚本文件,transformation和job,
transformation
完成针对数据的基础转换,job
则完成整个工作流的控制。 - Kettle(现在已经更名为
PDI
,Pentaho Data Integration-Pentaho数据集成)。
2.下载与安装
2.1 下载
官网下载
注意:官网下载比较慢,可以下载国内的
2.2 目录
2.3 安装
2.3.1 配置JDK环境
a).打开我的电脑--属性--高级--环境变量
b).新建系统变量JAVA_HOME和CLASSPATH
变量名:JAVA_HOME
变量值:C:\Program Files\Java\jdk1.7.0[具体路径以自己本机安装目录为准]
变量名:CLASSPATH
变量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;
c). 选择“系统变量”中变量名为“Path”的环境变量,双击该变量,把JDK安装路径中bin目录的绝对路径,添加到Path变量的值中,并使用半角的分号和已有的路径进行分隔。
变量名:Path
变量值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
2.3.2 配置Kettle环境
在系统的环境变量中添加KETTLE_HOME
变量,目录指向kettle的安装目录:D:\kettle\data-integration
3.使用
3.1 启动
双击Spoon.bat脚本启动即可
启动成功后,界面如图:
3.2 界面介绍
| Kettle中文社区:http://www.ukettle.org
| Kettle中文网:http://www.kettle.net.cn/
| Kettle源码地址:https://github.com/pentaho/pentaho-kettle
| Kettle 官方帮助文档:https://help.pentaho.com/Documentation/8.1
_