Kettle
chenyiming2010
这个作者很懒,什么都没留下…
展开
-
Kettle增量更新设计技巧
摘要:本文主要讨论一些在ETL中设计增量更新的方法和技巧。ETL中增量更新是一个比较依赖与工具和设计方法的过程,Kettle中主要提供Insert / Update 步骤,Delete 步骤和Database Lookup步骤来支持增量更新,增量更新的设计方法也是根据应用场景来选取的,虽然本文讨论的是Kettle的实现方式,但也许对其他工具也有一些帮助。本文不可能涵盖所有的情况,欢迎大家讨论。应用...转载 2018-04-19 14:26:20 · 3685 阅读 · 0 评论 -
Kettle 中常用 控件一览
Data Grid:The Data Grid step allows you to enter a static list of rows in a grid. This is usually done for testing, reference or demo purposes. Calculator:对一个表结构数据,至多对其中三列进行计算,生成新的一列 Swit...转载 2018-11-16 17:02:33 · 1785 阅读 · 0 评论 -
开源ETL工具kettle系列之常见问题
摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. Join 我得到A 数据流(不管是基于文件或数据库),A包含field1 , field2 , field3 字段,然后我还有一个B数据流,B包含field4 , field5 , field6 , 我现在想把它们 ‘加’...转载 2018-11-16 16:53:44 · 1114 阅读 · 2 评论 -
kettle各组件说明
文本文件输入(text input):读取大量不同的文本文件。大多是通过工具生成的CSV文件。表输入(table Input):常用来利用连接和SQL,从数据中读取信息,自动生成基本的SQL语句。获取系统信息(get system info):这个步骤从 Kettle 环境中获取信息。生成行(Generate Rows ):这个步骤输出一定数量的行,缺省为空。可选包括一定数量的静态字段...转载 2018-11-16 16:49:05 · 3187 阅读 · 0 评论 -
KETTLE常见问题和优化
1.创建MySQL空资源库报错问题:因为boolean类型的问题,Mysql中的boolean类型实际上保存为TINYINT,需要手动的修改生成资源库的sql脚本,将其中的插入用户ENABLED的值由Y修改为1,在数据同步的时候也特别要注意TINYINT类型的字段,ETL在读取数据以后会将值显示为Y或者N,保存到另外一张表的TINYINT中就会报错。2.乱码问题:数据库连接在选项中添加char...转载 2018-11-16 12:44:35 · 1615 阅读 · 0 评论 -
kettle性能优化
参考:http://blog.csdn.net/calmreason/article/details/49930479http://blog.csdn.net/xpliruizhi123/article/details/54580850(1)调优的关键 rowsetRowset是两个步骤之间的缓存(大小可以自己设置);Rowset值的设置:编辑》设置》杂项》记录集合里的记录数》...转载 2018-11-16 12:42:24 · 445 阅读 · 0 评论 -
Kettle性能调优汇总
性能调优在整个工程中是非常重要的,也是非常有必要的。但有的时候我们往往都不知道如何对性能进行调优。其实性能调优主要分两个方面:一方面是硬件调优,一方面是软件调优。本章主要是介绍Kettle的性能优化及效率提升。一、Kettle调优1、 调整JVM大小进行性能优化,修改Kettle定时任务中的Kitchen或Pan或Spoon脚本。 修改脚本代码片段 set ...转载 2018-11-16 12:35:32 · 1819 阅读 · 2 评论 -
kettle中执行sql语句
一、直接执行sql,不添加任何参数1.先找出执行sql语句的控件2.打开控件,填写要执行的sql语句,主要下图中的红框中选项,后面会介绍各个选项的作用二、执行sql,变量替换选项,变量指的是kettle相应作用域中的变量(如${report_time})该方式用到了变量替换选项,替换sql语句中的${}变量三、执行sql,执行每一行选项该选项可以接收上一步骤中的...转载 2018-09-14 17:07:18 · 7194 阅读 · 0 评论 -
Kettle之【执行SQL脚本】控件用法
版本:kettle6.1控件:执行SQL脚本 该控件可以执行一个update语句,用来更新某个表中的数据,如果不带条件,就很简单,把SQL语句粘贴到控件中,设置好数据库连接即可如果需要带条件执行,则需要进行一些设置。入下图,是一种常用的设置方法需要设置的地方有:1、勾选“变量替换”2、勾选“执行每一行?”3、勾选“Bind parmaters?”4、在whe...转载 2018-09-14 17:01:49 · 15419 阅读 · 1 评论 -
kettle 命令行运行作业(kitchen)和转换(pan)以及一路下来编写的例子
Kettle好的论坛:http://www.flybi.net/category/31BI教程学习地址:http://www.hellobi.com/course/37Kettle 命令行使用说明1.Kitchen——作业执行器是一个作业执行引擎,用来执行作业。这是一个命令行执行工具, 参数说明如下1) -rep:Repositoryname 任务包所在存储名2) -user:Repos...转载 2018-08-17 15:57:43 · 1250 阅读 · 0 评论 -
在Linux中通过Kitchen和Pan以命令行方式执行kettle的Job和Transformation
1. 准备工作一个简单的job,一个简单的trans。本处为了方便和效果易见,job和trans都生成文件。 trans:读取download目录下的所有文件名,输出为文件。【界面情况下测试成功】成功生成目标文件:job:创建文件。【界面模式测试执行成功】执行结果:把界面执行测试结果文件删除,以免影响观察。2. linux环境以命令行方式执行job和trans ...转载 2018-08-09 14:38:43 · 2435 阅读 · 0 评论 -
kettle使用命令行来运行ktr和kjb
1:cmd方式运行1.ktr的运行:运行transformation文件是通过Pan.bat来运行的。打开cmd命令行窗口,转到Pan.bat所在的目录,如d:\data-integration,然后执行文件的命令为:pan /file D:\etltest\EtltestTrans.ktr2.kjb的运行:运行job文件是通过kitchen.bat来运行的。打开cmd命令行窗口,...转载 2018-08-09 14:35:58 · 1124 阅读 · 0 评论 -
使用kettle制作拉链表
拉链表是在数据仓库中常见的表,主要用还存储不按时间变化的表,比如客户基本信息表。下面先建两个实例表,user_info和user_info_l,其中user_info_l为拉链表。user_info表及数据:user_info_l表及转换后的数据:kettle的设计其实很简单,就一个“表输入”一个“维度查询/更新下面来看一下表输入的配置:这个很简单,但是一定要有...转载 2018-11-16 17:41:38 · 926 阅读 · 0 评论