Kettle入门之一 介绍、安装部署


数据整合是吧在不同数据源的数据收集、整理、清洗、转换(有点像ETL)后,加载到一个新的数据源,为数据使用者提供统一数据视图的数据集成方式。

数据整合

数据整合是共享或者合并来自于两个或者更多应用的数据,创建一个具有更多功能的企业应用的过程。传统的商业应用有很强的面向对象性——即他们依靠持续的数据结构为商业实体和过程建模。当这种情况发生时,逻辑方式是通过数据共享或合并进行整合,而其他情况下,来自于一个应用的数据可能是重新构造才能和另一个应用的数据结构匹配,然后被直接写进另一个数据库。

下面我们将介绍一个目前比较成熟稳定的数据整合工具:Kettle

Kettle 介绍

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你           想怎么做。

Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制

Kettle目前包含五个产品:Spoon、Pan、Chef、Kithcen、Encr。

SPOON: 是一个图形用户界面,允许你通过图形界面来设计ETL转换过程(Transformation)和任务。

PAN: 转换(trasform)执行器;允许你批量运行由Spoon设计的ETL转换 (如使用一个时间调度器)。Pan是一个后台执行           的程序,没有图形界面。

CHEF: 允许你创建任务(Job)。 任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。          任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。

KITHCEN: 作业(job)执行器;允许你批量使用由Chef设计的任务 (如使用一个时间调度器)。KITCHEN也是一个后台运            行的程序。    

ENCR: 用来加密连接数据库密码与集群时使用的密码

一、Kettle 下载和部署

1、我们可以进入 Kettle官网 进行下载,由于是国外网站,加载慢,采取下面连接较快(内容一致)

https://sourceforge.net/projects/pentaho/files/Data%20Integration/

2、此处选择7.1版本

3、等待出现倒计时会自动下载,如果不出现倒计时,多刷新页面

2、Kettle 环境配置
由于Kettle是使用Java语言编写的,所有Kettel的运行需要有Java环境,安装JDK,请参考:Linux环境下JDK安装和配置Windows环境下JDK安装和配置

3、运行Kettle
进入到Kettle目录,如果Kettle部署在windows环境双击Spoon.bat文件启动Kettle,如果是在Linux环境下,则运行spoon.sh文件启动。出现如下界面,则我们的Kettle就安装成功了。

注意:如果连接数据库报错

检查我们的数据库驱动jar包版本 mysql-connector-java-5.1.6-bin.jar , 因为测试数据库版本为 MySQL 6.3 , 而使用此版本的数据库驱动包,会在创建数据库连接的时候发送测试语句 SET OPTION SQL_SELECT_LIMIT=DEFAULT , 但是5.6及以后的版本都不再支持SET...,此时,我们只需要将驱动版本升级,只需要将数据库驱动版本修改为5.1.22以上即可。

至此,Kettle的下载、环境配置和安装就基本完成了。


Kettle入门之二 连接资源库 https://blog.csdn.net/qq_43015592/article/details/107362683

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值