Kettle:介绍与使用(一)

1.介绍

1.1 ETL

  • 抽取(Extract):一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是ETL解决方案的成功实施的一个主要障碍。
  • 转换(Transform):任何对数据的处理过程都是转换。这些处理过程通常包括(但不限于)下面一些操作:
    移动数据
    根据规则验证数据
    数据内容和数据结构的修改
    将多个数据源的数据集成
    根据处理后的数据计算派生值和聚集值
  • 加载(Load):将数据加载到目标系统的所有操作。
    概念扩展:ELT,EII(Enterprise information integration)/Data federation

1.2 Kettle

  • Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
  • Kettle 中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。
  • Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
  • Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
  • Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。

2.下载与安装

2.1 下载

官网下载
注意:官网下载比较慢,可以下载国内的
在这里插入图片描述

2.2 目录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 安装

2.3.1 配置JDK环境
a).打开我的电脑--属性--高级--环境变量
b).新建系统变量JAVA_HOMECLASSPATH
变量名:JAVA_HOME
变量值:C:\Program Files\Java\jdk1.7.0[具体路径以自己本机安装目录为准]

变量名:CLASSPATH
变量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;

c). 选择“系统变量”中变量名为“Path”的环境变量,双击该变量,把JDK安装路径中bin目录的绝对路径,添加到Path变量的值中,并使用半角的分号和已有的路径进行分隔。
变量名:Path
变量值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;

2.3.2 配置Kettle环境

在系统的环境变量中添加KETTLE_HOME变量,目录指向kettle的安装目录:D:\kettle\data-integration

3.使用

3.1 启动

双击Spoon.bat脚本启动即可
在这里插入图片描述
启动成功后,界面如图:
在这里插入图片描述

3.2 界面介绍

在这里插入图片描述

| Kettle中文社区:http://www.ukettle.org

| Kettle中文网:http://www.kettle.net.cn/

| Kettle源码地址:https://github.com/pentaho/pentaho-kettle

| Kettle 官方帮助文档:https://help.pentaho.com/Documentation/8.1

_

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值