自己总结的etl数挖掘据工具-Kettle

etl工作中
Kettle软件介绍
Pentaho Data Integration (Kettle)是Pentaho生态系统中默认的ETL工具。Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
通过非常直观的图形化编辑器(Spoon),您可以定义以XML格式储存的流程。在Kettle运行过程中,这些流程会以不同的方法编译。用到的工具包括命令行工具(Pan),小型服务器(Carte),数据库存储库(repository)(Kitchen)或者直接使用IDE(Spoon)。
 
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle 将 ELT 流程编译为 XML 格式,学起来十分简单,Pentaho Data Integration (Kettle) 使用 Java (Swing)开发。Kettle 作为编译器对 XML 格式书写的流程进行编译。这些功能和组件比起 Talend 在丰富性方面稍逊一些,但是您建立复杂 ETL 流程需要的一切元素。Kettle 的 JavaScript 引擎(和 Java 引擎)可以深层地控制对数据的处理。
Kettle使用教程:
Kettle自己有三个主要组件:Spoon,Kitchen,Pan。其中Spoon是一个图形化的界面,用于windows的时候,先设置环境变量:pentaho_java_home,例如:C:\Program Files\Java\jdk1.7.0_25,其实就是你的java安装目录,1.6以上即可。windows下双击Spoon.bat就可以了.

安装Kettle

1.由于软件是由java 编写 需要 先安装jdk jdk 版本要求是1.6
2.安装完成后 要在window 下 设置环境变量
3.在administratorbian变量path 中 增加java变量 ;C:\Program Files\Java\jdk1.6.0_43\bin
4.新建 系统变量 JAVA_HOME C:\Program Files\Java\jdk1.6.0_43

  1. 系统变量path 中 ;C:\Program Files\TortoiseSVN\bin;C:\Program Files\Java\jdk1.6.0_43\bin
    6.在dos 下 输入javac 测试 环境变量
    7.如果需要连接mysql 数据库需要把mysql 数据库的安装包mysql-connector-java-5.1.18-bin放到D:\工具\kettle\data-integration\libext\JDBC
    8.使用spoon 不需要安装 双击spoon 用户名admin 密码不输入 进入软件界面
    9.进入界面后 新建作业或者转换 进行数据库连接

转载于:https://blog.51cto.com/10975663/2064477

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值