KETTLE简介
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行, 数据抽取高效稳定。Kettle 是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写,Kettle 是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写,Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许管理来自不同数据库的数据,通过图形化界面实现数据的抽取、转换、装入和加载等操作。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
特色功能
1、无代码拖拽式构建数据管道
超过200个不同的组件,可以对数据读取、关联、过滤、格式转换、计算、统计、建模、挖掘、输出到不同的数据目标。
2、多数据源对接
支持关系型数据库、大数据平台、流数据、文件、其他类型数据源
3、数据管道可视化
支持用户在数据管道任何一个步骤对当前数据进行查看,并可以在线以表格和图表输出步骤的数据
4、可视化计划任务
提供可视化方式配置任务计划,用户可透过Spoon或网页端的Pentaho User Console配置和维护任务的执行时间、间隔、使用参数、及具体运行节点
5、数据挖掘与机器学习支持
最新版的预置了超过20种数据挖掘算法类的转换步骤,用户可以轻松把把机器学习集成到数据管道里,用来做数据模型训练和进行预测分析
6、深度Hadoop支持
针对主流厂家预置专用的对接插件,除了可以通过插件轻松对接Hadoop集群的数据源(HDFS, Hive, HBase, Impala等)还提供与Kerberos等企业级安全机制对接,以满足全要求。同时支持无代码编写进行MapReduce、Sqoop等任务的开发
下载地址
Kettle的下载地址:https://sourceforge.net/projects/pentaho/files/Data%20Integration/
(最新版本pdi-ce-9.2.0.0-290)
安装
下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。然后打开Spoon.bat,如图所示: