ETL-Kettle学习

学习视频

https://www.bilibili.com/video/BV1NT4y1c7o8?p=1

一、ETL 了解(数据仓库技术)

etl是 extract(抽取)-transform(转换)-load(加载)的缩写。对应的是数据处理的过程,抽取=》转换=》加载。

二、Kettle(工具)

是一款etl 工具,etl工具还有很多。

Kettle是一款国外开源的ETL工具,纯Java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。——就是你想达到什么样的目的,不需要管后台如何操作。就是你想要房子,不用管如何建造的。

Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。
在这里插入图片描述

三、Kettle脚本流程

Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

在这里插入图片描述
作业是一步一步的执行,必须等前面的执行完成才能进行下一步。转换是全部启动。转换属于多个步骤中的一步。
在这里插入图片描述

四、Kettle组件

在这里插入图片描述

五、Kettle目录

在这里插入图片描述
还有一些主要的脚本,使用spoon.bat/spoon.sh 启动Kettle 工具,第一次启动可能会慢一些

六、Kettle界面

connet链接区,设置连接资源库数据库,密码账户都是admin。登录后,打开本地文件再保存,就存到服务器数据库。
还有本地资源库可以生成
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

双击空白工作区获取跳的信息。
在这里插入图片描述

七、操作

拖入操作步骤,创建输入输出模块,按住shift连接步骤。连接线也叫跳。
在这里插入图片描述
在这里插入图片描述

输入模块使用
在这里插入图片描述


输出模块使用
注意文件名后缀,如果扩展名和文件名都有后缀会添加两个后缀,可以删除文件名后缀
在这里插入图片描述
可以获取字段,进行格式调整,设置宽度。0是取到整数位
在这里插入图片描述

1.转换

在转换中,以行为单位进行转换,一行数据从输入跳到输出,再开始第二行数据跳。
在这里插入图片描述

2.步骤

在这里插入图片描述
分发是把总的数据分开发送,总5,会给1两条,给2三条数据。复制是都能有5条数据
在这里插入图片描述

3.跳

在这里插入图片描述

4.数据类型

在这里插入图片描述

5.并行

在这里插入图片描述

6.作业

在这里插入图片描述

八、Kettle转换

在处理数据的时候能获取字段,预览到数据基本没问题。转换是多线程的

1.Kettle输入控件

常用控件
在这里插入图片描述

csv文件输入

csv文件数据默认用逗号隔开
在这里插入图片描述
在这里插入图片描述


文件大可以调NIO
在这里插入图片描述

文本文件输入

在这里插入图片描述

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值