Kettle的简介
Kettle最早是一个开源的ETL(Extract-Transform-Load的缩写)工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。后来Kettle重命名为Pentaho Data Integration 。
它由Java
开发,支持跨平台运行,其特性包括:支持100%无编码、拖拽方式开发ETL数据管道;可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源;支持ETL数据管道加入机器学习算法。
Kettle
是一个实现ETL开发的一款开发工具,Spoon
是Kettle工具提供的图形化界面。
Kettle的主要功能
kettle可以对多种数据源进行抽取、加载、数据落湖、对数据进行各种清洗、转换、混合,并支持多维联机分析处理和数据挖掘。
Kettle下载
下载链接:Pentaho from Hitachi Vantara - Browse Files at SourceForge.net
点击以后就自动下载了
然后就等吧 有点慢
这些版本按需求下载吧,我用的8.2
下好以后就直接解压
双击spoon.bat文件运行
安装JDK
如果出现这个报错 就是说明你的电脑没有java环境
需要先检查C:\Program Files 这个路径下有没有java这个文件夹
没有的话需要去下载jdk
可以看一下这位大佬的jdk安装步骤
Windows10环境下Kettle的jdk下载与安装(超详细)
这里也给大家一个百度网盘的连接吧
如果有的话,你应该是没有配置环境变量
配置环境变量
打开控制面板
点击查看高级系统设置
点击环境变量 选择path
然后再后面加上
%JAVA_HOME%\bin;
%JAVA_HOME%\jre\bin;
C:\Program Files\Java\jdk1.8.0_144\bin;
%CLASSPATH%
记得点确定
之后双击spoon.bat
OK,正常打开
创建资源库
Pentaho Repository(默认)需要启动server
Database Repository(使用数据库存储)存在连接的数据库上,一般建议使用这个
File Repository(使用文件存储)存在本地的电脑文件上
选择数据库资源库类型
Pentaho Repository 默认资源库类型
Database Repository 数据库资源库类型,数据存在数据库中
File Repository 文件资源库类型,数据存在本地文件中
我们这里选择常用的 Database Repository 数据库资源库类型
需要在数据库里建一个kettle数据库
连接kettle数据库
填写数据库资源库信息
用英文描述,建议不要出现中文
第一栏写资源库名称
第三栏写资源库描述
最后面打钩的是启动时启动连接
填写完毕后
点击第二栏,添加资源库的数据库连接
OK
连接资源库 账号密码都是admin