Kettle 学习笔记 — 资源库

ETL 同时被 2 个专栏收录
5 篇文章 0 订阅
5 篇文章 2 订阅

版权声明:本文为博主原创文章,于2021年4月17日首发于CSDN,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/u011046671/article/details/115756193

一、简介

资源库,顾名思义,是存放转换和作业脚本的地方,可以统一对脚本进行管理。当然,我们也可以不使用资源库,将脚本保存在本地硬盘的任意位置,但是在后期管理和运行中会有一些麻烦。另外,创建资源库过程中需要调用操作系统的浏览器内核,在 Windows 平台要求 IE 的版本在IE11及以上,在 Linux 平台要求 Firefox 的版本为最新版。

二、分类

常见的资源库有两种。为 文件资源库 数据库资源库文件资源库 是以 ktr kjb 文件的形式(本质上是 xml 文件,可以使用文本工具打开查看编辑 )保存在本地计算机的硬盘的目录中。数据库资源库 是将脚本存放在数据库中,kettle 可以在常见的数据库中创建资源库。

三、特点

  • 文件资源库 将脚本保存在本地创建的目录中,打开资源库可以管理所有的脚本。可以解决在作业中引用其它脚本带来的路径问题,避免因不同平台(如Windows 和 Linux )中的路径分隔符不同,造成运行失败。因为脚本文件为文本文件,通过与其他版本管理工具(如 SVN 和 GIT )配合,可以管理不同版本的脚本。但是因为脚本保存在本地计算机中,只能在本地运行,不能远程调用。
  • 数据库资源库 将脚本保存数据库中,kettle 通过 JDBC 连接资源库,数据库可以是本地计算机,也可以是远程计算机。可以统一管理脚本。利用数据库备份工具可以对脚本进行备份,保证脚本的安全。数据库连接信息保存在数据库中,当信息变更的时候,在资源库【连接】标签中修改后,所有脚本使用的该数据库连接信息自动更新。
  • 综上所述,我建议在有数据库的条件下,优先选择数据库资源库,在没有数据库的的情况下,选择文件资源库。或者在开发环境选择文件资源库,在生产环境选择数据库资源库。

三、创建资源库

  • 创建 文件资源库 步骤:

1、使用快捷键 【Windows + R】打开 运行对话框,输入:spoon 按回车,稍等片刻后,就会打开 spoon ,然后点击右上角的【connect】按钮。

2、然后点击 【Other Repositories 】,然后点击右下角 【Get Started 】。

3、点击选择 【 File Repository】 后,点击右下角 【Get Started 】。 

4、填写资源库信息:[ Display Name ]为 [ 显示名称 ],不能设置中文字符,此处设置为:master-file-repo,[ Location ] 为 [ 位置 ],需要在本地创建一个目录,作为存储路径,点击 【Browse】进行选择。 [ Show hidden folders ] 为 [ 显示隐藏文件夹 ] 。 [ Description ] 为 [ 资源库描述 ],默认即可。[ Launch connection on startup ] 为 [ 启动时自动连接 ] 。建议勾选上。然后点击右下角的 【Finsh】。

5、文件资源库创建完成,点击按钮【Connect Now 】可以立即连接。

  • 创建 数据资源库 步骤:

1、kettle 支持在常见的数据库中创建资源库,建议创建单独的数据库或用户进行管理,不要与其他数据混合。以免造成冲突。如:MySQL建议创建单独的数据库,Oracle 建议创建单独的用户,此处以 Oracle 数据库为例,创建用户的 SQL 代码为:

--清理用户及数据
drop user db_kettle cascade; 
-- 创建用户
create user db_kettle
identified by db_kettle
default tablespace users
quota unlimited on users
temporary tablespace temp;
-- 授予权限
grant connect to db_kettle;
grant resource to db_kettle;

2、使用快捷键 【Windows + R】打开 运行对话框,输入:spoon 按回车,稍等片刻后,就会打开 spoon ,然后点击右上角的【connect】按钮。

3、然后点击 【Other Repositories 】,然后点击右下角 【Get Started 】。

4、点击选择 【 Database Repository】 后,点击右下角 【Get Started 】。 

5、填写资源库信息:[ Display Name ]为 [ 显示名称 ],不能设置中文字符,此处设置为:master-db-repo。[Database connection ] 为数据库连接,点击【None】选择一个数据库连接。如果没有数据库连接,可以点击 【 Create New Connection 】创建一个数据连接。连接名称:不能设置为中文字符,此处填写:kettle-repodb;连接类型:默认为:Oracle;可以根据需要选择其他数据库类型,主机名称:填写IPv4地址;数据库名称:填写数据库的SID,大小写均可;端口号:默认为1521 ,如果修改成其他端口号请在此处修改;用户名:填写数据库的用户名,此处填写:db_kettle ;密码:填写数据库的密码,此处填写:db_kettle  ;填写完成后,点击【测试】按钮进行测试,是否可以成功连接,弹出“ 正确连接到数据库”,说明可以成功连接。点击【确定】返回。然后点击 【Back】 返回资源库信息页面。 [ Description ] 为 [ 资源库描述 ],默认即可。[ Launch connection on startup ] 为 [ 启动时自动连接 ] 。建议勾选上。然后点击右下角的 【Finsh】。

6、数据库资源库创建完成,点击按钮【Connect Now 】可以立即连接。弹出登陆框,username 默认为:admin ;password 默认为:admin

其他说明:文件资源库和数据库资源库在创建和连接过程中会在相关的目录或数据库中写入系统数据,如果目标目录或者目标数据库已经存在相关数据,则不会删除相关的数据,因此不用担心原有数据丢失。

四、管理资源库

创建资源库并连接后,在 spoon 中可以依次点击 【工具】-【资源库】-【探索资源库】或者使用快捷键 【Ctrl + E 】打开资源库。

在【浏览】标签中,点击右键可以进行 创建目录 / 打开 / 删除 / 重命名,建议转换和作业分类存放。创建两个目录:转换作业

在【连接】标签中,可以看到所有的数据库连接,可以点击右上角的相关功能按钮进行修改增加删除

在【安全】标签中,可以看到所有的资源库用户,可以点击右上角的相关功能按钮进行修改增加删除。

连接上资源库之后可以进行创建脚本,编辑完成后点击【文件】-【保存】按钮,就可以将脚本保存在资源库中。

如果想打开资源库之外的脚本,可以点击【文件】-【从URL打开文件】。然后点击【文件】-【另存为】将脚本保存在资源库中。

如果想将资源库内的脚本保存在本地计算机中,可以点击【文件】-【另存为VFS】,选择相应的路径,输入相应的名称后,点击【OK】。

五、备份资源库

文件资源库:可以直接备份保存脚本的文件夹。

数据库资源库:可以使用数据库备份工具进行备份,也可以与主数据使用脚本统一备份。

版权声明:本文为博主原创文章,于2021年4月17日首发于CSDN,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/u011046671/article/details/115756193

  • 2
    点赞
  • 2
    评论
  • 2
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值