可视化ETL平台--Kettle

Kettle的介绍
学习目标

知道什么是ETL及Kettel是开源的ETL工具
了解kettle环境的安装流程
1.ETL介绍
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少的,Kettle就是强大的ETL工具。

Kettle是一款国外开源的ETL工具。

2.Kettle介绍
kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

kettle 的官网是 https://community.hitachivantara.com/docs/DOC-1009855

github 地址是 https://github.com/pentaho/pentaho-kettle

3.Kettle环境搭建
这边以 windows 下的配置为例,linux 下配置类似。

jdk版本:jdk1.8.0版本
kettle版本:pdi-ce-9.0版本
MySQL版本:MySQL-8.0
3.1. jdk 安装
由于 kettle 是基于 java 的,因此需要安装 java 环境,并配置 JAVA_HOME 环境变量。

注意:

建议安装 JDK1.8 及以上,7.0以后版本的 kettle 不支持低版本 JDK。
Java官网:Java Downloads | Oracle
课程以jdk-8u241-windows-x64版本为例。
步骤如下:

(1)找到资料/安装包中的jdk软件安装包,双击打开。

(2)点击 「下一步」按钮

(3)将路径修改为 c:\opt\jdk1.8.0_241,点击「确定」按钮

(4)点击「下一步」,等待进度条完成。

(5)在新弹出的窗口中,点击「更改」按钮,将JRE的安装路径修改为 c:/opt/jre1.8.0_241。

注意:碰到以下错误可以忽略(是因为机器名中包含了一些JDK不识别的支付)

(6)点击「关闭」完成安装。

3.2环境变量添加
我们需要给计算机配置环境变量JAVA_HOME。

作用:它指向jdk的安装目录,Eclipse/NetBeans/Tomcat等软件就是通过搜索JAVA_HOME变量来找到并使用安装好的jdk。

配置方法:在系统变量里点击新建,变量名填写JAVA_HOME,变量值填写JDK的安装路径。

步骤如下:

(1)找到jdk的安装目录,复制其路径,如果不清楚自己安装的位置,可以采用如下方式:

在搜索栏搜索java.exe,找到并且定位到java.exe文件,将地址栏内容进行复制。

jdk的安装路径即为bin目录之前的目录结构: D:\development\java

(2)找到此电脑右键点击选择属性,弹出如下界面,选择高级系统设置,不同版本系统位置可能不太一样,耐心寻找一下。

(3)进入高级系统设置之后,点击环境变量按钮,即可进入环境变量配置界面。

(4)找到系统变量,选择新建,将JAVA_HOME填写到变量名中,将刚才的复制的jdk安装路径粘贴到变量值内,点击确定完成环境变量添加。

(5)在系统变量里找到Path变量,这是系统自带的,不用新建。双击Path,由于原来的变量值已经存在,故应在已有的变量后加上:

%JAVA_HOME%\bin

%JAVA_HOME%\jre\bin

(6) 检测环境变量是否配置成功,在底部搜索栏输入cmd,按Enter键唤出终端窗口。

输入java,输出如下内容则配置成功。

3.2kettle安装
kettle官网下载地址:Home - Hitachi Vantara

kettle也可以到可以到https://sourceforge.net/projects/pentaho/files/下载

安装步骤如下:

(1)先将kettle下载到本地。

(2)解压Kettle(解压到非中文目录)

(3)进入解压后的文件夹data-integration,双击Spoon.bat,启动kettle。

注意:

由于 kettle 需要连接数据库,因此需要下载对应的数据库驱动。
例如:MySQL 数据库需要下载 mysql-connector-java.jar(在Windows中安装MySQL时已经自动安装)
课程基于 pdi-ce-9.0.0.0-423 版本进行介绍,低版本可能有区别。
Mac OS系统安装请参考:《Mac版本kettle环境安装》

4.小结
ETL即数据抽取、转换、装载的过程。
kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。
安装kettle前需要先安装jdk以及配置环境变量

kettle数据转换
学习目标

知道什么是kettle的数据转换
在开发中,数据不是单一形式的,我们常见的数据形式有很多,比如:Excel,TXT,CSV等本地数据,以及Mysql数据库,Oracle,HIVE,redis,等服务其数据。

那么我们为了能够让数据在同一个空间或平台上进行运算,处理,统计,分析,预测等工作,就需要频繁的对数据进行转换,而kettle就为我们提供了这样一种快速,可靠的可视化转换形式。

ketlle可以在多种数据源之间进行快速转换。

Kettle的基本开发步骤

新建转换
构建Kettle的数据流图
配置数据流图中的各个组件
保存并启动执行
txt数据转换Excel数据
学习目标

熟悉使用kettle将txt数据转换为Excel数据的操作步骤。
1.需求
小A现在有一个txt文件,文件内容如下:

id,name,age,gender,province,c

  • 11
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值