数据仓库工具 kettle 持续更新

本文详细介绍了数据仓库工具Kettle的使用,包括文件导入导出、连接数据库、核心概念如步骤(step)、跳(hop)和数据流,以及单表和多表输入输出的操作。在数据库连接中强调了默认登录信息,并展示了如何配置表输入输出,最后讨论了多表合并的注意事项,如排序和全量数据的重要性。
摘要由CSDN通过智能技术生成

获取文中mysql数据库中表结构和数据

文件导入导出

 


Hop眺: 就是步骤之间带箭头的连线,眺定义了步骤之间的数据通路。跳实际是两个步骤之间的被称为——行集的数据缓存,在流程运行过程中数据会先往hop中写。当行集满了,向行集数据写入数据就会停止,知道行集里又有了空间。当行集空了,从行集读取数据的步骤会停止,直到行集里又有了可读的数据。行集的大小可以在转换的设置里进行设置,如下图:

                   

               

 

 

 

 

 

 

 

 

kettle核心概念:

转换:   转换是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行操作。 转换包含一个或者多个步骤,如读取文件、过滤数据行、数据清洗或将数据加载到数据库。 转换中的步骤通过 跳(hop)来链接,跳定义一个单向通道,允许数据从一个步骤向另一个步骤流动。

数据流:在kettle 中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动,一个数据行是零到多个字段的集                    合。数据流也被称为记录流。

step 步骤: 步骤(控件)是转换中的基本组成部分;

          步骤的关键特性:

              1、步骤需要有一个整个转换过程中唯一的名字;

              2、每个步骤都会读、写数据行(唯一例外的是“生成记录”步骤,该步骤只写数据);

              3、 步骤将数据写到与之相连的一个或多个输出跳,再传送到跳的另一端的步骤;

              4、 大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为分发和复制,分发是目标步骤轮流接收记                          录,复制是所有的记录被同时发送到所有的目标步骤。

 

hop跳:就是步骤之间带箭头的连线,眺定义了步骤之间的数据通路。跳实际是两个步骤之间的被称为——行集的数据缓存,在                流程运行过程中数据会先往hop中写。当行集满了,向行集数据写入数据就会停止,知道行集里又有了空间。当行集空                了,从行集读取数据的步骤会停止,直到行集里又有了可读的数据

kettle中数据行中数据类型:

              1 String  字符类型数据

              2 Number 双精度浮点数

              3 Integer 带符号长整型(64位)

              4 BigNumber 任意精度数据

              5 Date 带毫秒精度的日期时间值

              6 Boolean 取值为true和false的布尔值

              7 Binary  二进制字段可以包含图像、声音、视频及其他类型的二进制数据

       

数据行——元数据:

   

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值