kettle初入门概念
kettle初入门概念
视频教程:https://www.bilibili.com/video/BV1jE411B7J8?p=7
kettle核心概念
可视化编程:kettle是被归类于可视化编程,使用图形化放入方法定义复杂的etl程序与工作流。
kettle里的图就是转换和作业。
转换:是etl解决方案中最主要的部分,它处理抽取,转换,加载各种对数据行的操作。
转换包含一个或多个步骤,通过跳(hop)来连接,定义一个单向通道,允许数据从一个步骤向另一个步骤流动。
在kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。
数据流也被称为记录流。
步骤是转换中最基本的组成部分。也称为控件。
一个步骤(控件)有以下特性:
(1)步骤需要一个名字,在转换范围内唯一的名字。
(2)每个步骤都有读写数据行,除了生成记录步骤,该步骤只写数据。
(3)步骤将数据写到与之项链的一个或多个输出跳,再传送到跳的另一段的步骤。
(4)大多数的步骤都可以有多个输出跳,一个步骤的数据可以被设置为分发跳和复制跳,分发的目标步骤轮流接收记录,复制是所有的记录被同时发送到所有的目录步骤。