Etl 介绍
ETL(Extract-Transform-Load 的缩写,即数据抽取、转换、装载的过程),对于金融 IT 来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种
etl 工具的使用,必不可少。Kettle 是一款国外开源的 etl 工具,纯 java 编写,绿色无需安装,数据抽取高效稳定。Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。
kettle 部署运行
1.将 kettle4.3.1 文件夹拷贝到本地路径,例如 D 盘根目录。双击运行 kettle 文件夹下的 spoon.bat 文件
2.进入程序主页面后,选择没有资源库,打开 kettle 主界面建 创建 transformation ,job
3.点击页面左上角的 创建一个新的 transformation,点击 保存到本地路径,例如保存到 D:/etltest 下,保存文件名为 EtltestTrans,kettle 默认 transformation
文件保存后后缀名为 ktr点击页面左上角的 创建一个新的 job,点击 保存到本地路径,例如保存到 D:/etltest 下,保存文件名为 EtltestJob,kettle 默认 job 文件保存后后缀名为kjb
4.创建数据库连接
在 transformation 页面下,点击左边的【Main Tree】,双击【DB 连接】,进行数据库连接配置。
- Connection name 自命名连接名称
- Connection type 选择需要连接的数据库
- Method of access 选择连接类型
- Server host name 写入数据库服务器的 ip 地址
- Database name 写入数据库名
- Port number 写入端口号
- Username 写入用户名
- Password 写入密码
例如如下配置:
点击【test】,如果出现如下提示则说明配置成功
点击关闭,再点击确定保存数据库连接。
第一个转换(transformation)
- 目标:
两个结构相同的表数据同步更新 - 操作步骤:
-
在核心对象中搜索表输出,找到并拖动的主窗口。
-
在核心对象中搜索插入/更新,拖动到主窗口。
-
连线。
-
数据库连接选择刚刚创建好的 local数据库连接,在主窗口写入对应的查询
语句,如select * from xxx_tb.
5.配置更新设置,包括数据库连接,目标表,查询关键字和更新字段。
6.保存。
7.执行。
8.查看执行结果。
如果出现错误,可根据日志查明原因。