ETL
IQuicksandI
这个作者很懒,什么都没留下…
展开
-
Kettle 列转行
原数据人员编码职务选票数1041151210201213229列转行 数据人员编码职位一职位二职位三145102139原创 2012-05-28 16:22:20 · 8757 阅读 · 0 评论 -
kettle 循环实现方式
1 创建作业2.循环创建3.data ouput job 设置参数4.data output 中设置参数5. data output 内容:6.data output tran 内容原创 2012-06-15 10:24:56 · 6975 阅读 · 3 评论 -
kettle windows 环境配置
1.安装 jdk2.配置Java 环境 JAVA_HOME C:\Java\jdk1.6.0_29 Path C:\Java\jdk1.6.0_29\bin 启动 kettle原创 2012-06-10 10:19:54 · 6451 阅读 · 0 评论 -
KETTLE 并行任务设置
为提高任务执行效率,同时也保证任务执行时的无相关性,(串行操作往往依赖上个任务的执行结果)并行操作势在必行。原创 2012-06-05 16:11:36 · 14652 阅读 · 11 评论 -
kettle调度
Labels:IndexWhat is Kitchen?InstallationLaunching KitchenCommand line optionsPathRun a job from fileRun a job from RepositoryRedirecting outputReturn codesSchedulingWhat is转载 2012-06-06 10:03:35 · 11061 阅读 · 1 评论 -
Kettle的一些常见问题
摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. Join 我得到A 数据流(不管是基于文件或数据库),A包含field1 , field2 , field3 字段,然后我还有一个B数据流,B包含field4 , field5 , field6 , 我现在想把它们 ‘加’ 起转载 2012-06-05 16:36:18 · 11187 阅读 · 1 评论 -
Kettle最佳实践
一、当输入对象为CSV文件时,将NIO Buffer Size从默认的50000改到最佳的200000。二、当输出对象为表输出时,将提交记录数量从默认的1000改到最佳的4000。三、尽可能关闭转换过程中一切与数据库相关的日志,如表日志、索引日志等。四、在数据库去重时,使用普通索引而不是唯一性索引。五、在插入数据之前,先使索引unusable,数据导完之后再rebu转载 2012-06-05 16:35:26 · 2227 阅读 · 0 评论 -
kettle 创建数据 乱码问题
1.设置数据库连接:2.设置数据库连接 字符集3.查看数据库 选用字符集4.最后问题解决原创 2012-06-04 11:33:29 · 3360 阅读 · 0 评论 -
kettle 变量设置
原创 2012-05-30 14:53:34 · 12126 阅读 · 3 评论 -
kettle 使用问题
数据文本导出:fast data dump (no formatting) 字段之间不会有多余空格原创 2012-05-30 10:28:49 · 1399 阅读 · 0 评论 -
kettle 插入/更新
A 表:B表:执行:结果:原创 2012-05-29 15:23:21 · 6880 阅读 · 0 评论 -
kettle 增量更新
后面的一个问号就是表示它需要接受一个参数,你在这个table input 下面需要指定replace variable in script 选项和execute for each row 为选中状态,这样,Kettle就会循环执行这个sql , 执行的次数为前面参数步骤传入的数据集的大小。Kettle执行这个步骤是需要两个数据流对比,其中一个是目标数据库,你在Target原创 2012-05-29 17:52:35 · 12097 阅读 · 1 评论 -
kettle select value值 传参
1) 向Execute SQL Script传递参数步骤-1:从数据源头获取一行数据步骤 0:Select Values (针对一行进行有选择地取出某些字段,比如取出5个字段,每个字段作为变量参数,传递给下一步的SQL)步骤 1:Execute SQL Script(进一步选取上一步输出的某几个字段值,比如从上面5个字段里面再筛选出4个,作为执行SQL的参数)这4个字段是:原创 2012-05-29 09:29:12 · 8861 阅读 · 1 评论 -
kettle 查询 存储过程
原创 2012-05-28 17:24:13 · 4393 阅读 · 1 评论 -
KETTLE Configuring for Cloudera
To communicate with Cloudera, you must change which version of Hadoop to use when communicating with a Hadoop cluster.Within the file plugins/pentaho-big-data-plugin/plugin.properties, update th转载 2013-03-04 15:10:03 · 1236 阅读 · 0 评论