kettle
学习视频
https://www.bilibili.com/video/BV1NT4y1c7o8?p=1
一、ETL 了解(数据仓库技术)
etl是 extract(抽取)-transform(转换)-load(加载)的缩写。对应的是数据处理的过程,抽取=》转换=》加载。
二、Kettle(工具)
是一款etl 工具,etl工具还有很多。
Kettle是一款国外开源的ETL工具,纯Java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。——就是你想达到什么样的目的,不需要管后台如何操作。就是你想要房子,不用管如何建造的。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。
三、Kettle脚本流程
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
作业是一步一步的执行,必须等前面的执行完成才能进行下一步。转换是全部启动。转换属于多个步骤中的一步。
四、Kettle组件
五、Kettle目录
还有一些主要的脚本,使用spoon.bat/spoon.sh 启动Kettle 工具,第一次启动可能会慢一些
六、Kettle界面
connet链接区,设置连接资源库数据库,密码账户都是admin。登录后,打开本地文件再保存,就存到服务器数据库。
还有本地资源库可以生成
双击空白工作区获取跳的信息。
七、操作
拖入操作步骤,创建输入输出模块,按住shift连接步骤。连接线也叫跳。
输入模块使用
输出模块使用
注意文件名后缀,如果扩展名和文件名都有后缀会添加两个后缀,可以删除文件名后缀
可以获取字段,进行格式调整,设置宽度。0是取到整数位
1.转换
在转换中,以行为单位进行转换,一行数据从输入跳到输出,再开始第二行数据跳。
2.步骤
分发是把总的数据分开发送,总5,会给1两条,给2三条数据。复制是都能有5条数据
3.跳
4.数据类型
5.并行
6.作业
八、Kettle转换
在处理数据的时候能获取字段,预览到数据基本没问题。转换是多线程的
1.Kettle输入控件
常用控件
csv文件输入
csv文件数据默认用逗号隔开
文件大可以调NIO
文本文件输入