ETL实践
文章平均质量分 89
zokaper
务实、好学
展开
-
Kettle TableInput 将从前一步骤获取参数整合到数据流中
开源ETL工具Kettle transformation中的tableInput步骤无法将上一步骤中参数添加到inputTable 输出流中。但是有时需要上一步骤中的数据,这种情况下就很难处理了。1 测试环境 Kettle 版本 5.0 数据库 Oracle 11g R2 Eclipse2 第一种方式处理 如上图所示,采用记录关联步骤,实现前一步骤和tableInput步骤数原创 2016-06-01 00:19:08 · 16224 阅读 · 3 评论 -
KETTLE WEB管理控制台设计
1 资源配置管理1.1 用例图1.2 用例叙述1.2.1 添加资源库用例用例名称:添加资源库 前置条件:操作员在启动这个用例之前,必须先执行过“登录”用例。 主要事件流: 1. 当用户选择添加资源库时,这个用例就会启动。 2. 用户输入kettle资源库所在数据库的数据库类型、数据库实例、数据库IP地址、数据库用户名和数据库用户登录密码,并将用户输入信息提交给系统。 3. 系统核对信原创 2016-01-22 06:40:05 · 19164 阅读 · 7 评论 -
Kettle日志之Kettle step materic日志代码实现(一)
一、Developer Environment:JDK1.6MyEclipse6.5Kettle4.0二、Code List1、创建Step日志表kettle_step_log_table(Oracle建表sql)create table KETTLE_STEP_LOG_TABLE( ID_BATCH INTEGER, CHANNEL_ID V原创 2012-05-07 13:02:53 · 7419 阅读 · 5 评论 -
Kettle与Java集成——Java代码调取运行资源库的Transformation
下面代码是Java代码调用Kettle4.0版本的Transformation1、Java读取资源库运行Transformation(1)目录类型资源库Java代码 import org.pentaho.di.core.KettleEnvironment; import org.pentaho.di.core.exception.KettleException; i原创 2011-11-19 17:12:29 · 11340 阅读 · 1 评论 -
kettle日志之使用xml标签实现日志记录入库
1、 kettle_step_log_table kettle_trans_log_table ID_BATCH Y ID_BATCH CHANNEL_ID Y CHANNEL_ID TRANSNAME原创 2012-05-07 17:00:10 · 2861 阅读 · 2 评论 -
kettle读取文件目录下的数据结构一致的所有数据文件信息和内容
为了避免文本文件在导出的数据时过大,分别导出在多个文件文本中。怎么利用kettle读取文件目录下的数据结构一致的所有数据文件信息和内容?如下图所示:其实在kettle中有step为Get File Names 和Text Input两个步骤,可以通过设置这两个步骤的属性来实现在文件目录下读取指定文件后缀名的文件的信息和数据。通过这样的设置文件信息(文件名,大小,路径等)可以是一个流原创 2012-07-13 15:09:45 · 20038 阅读 · 2 评论 -
kettle插件——实现资源库中JOB和其关联的脚本的下载
1、 设计需求: 现项目基于Kettle采集各个节点前置机数据到数据中心并且表结构是一致的。每台前置机上安装部署kettle运行JOB,定时采集数据到数据中心。开发的脚本除了前置数据库连接不一致外,其他的都是一样的。若是为每个节点开发JOB和其关联的Trans,开发和维护都有很大的工作量。所以设计一个下载JOB和其关联的脚本组件实现,下载采集的JOB,并能够实现脚本之间关联。2、 实现过程原创 2012-08-17 19:44:46 · 3237 阅读 · 0 评论 -
Kettle 文本输入步骤读取异常 DOS format was specified
DOS format was specified but only a single line feed character was found, not 2在使用KETTLE抽取文本文件数据到数据库,出现了一个错误:2013/10/23 10:34:34 - Trans - 这项转换可以被回放 回放日期是: 2013/10/23 10:34:332013/10/23 10:3原创 2013-10-23 11:06:14 · 8093 阅读 · 0 评论 -
Kettle 作业步骤循环执行的实现
场景:User_Tables存放着系统用户的表信息,其中列Table_Name存放着表名。现在想从User_Tables中获取要进行相同数据抽取操作的表,使用Kettle实现循环执行这些表。例如统计表A、B的总行数:SELECT COUNT(1) FROM A;SELECT COUNT(1) FROM B;这些SQL语句除开表名外,其他部分都是一样的,所以在使用KETTLE抽取数据原创 2013-10-25 13:34:14 · 68162 阅读 · 13 评论 -
Kettle 生成的XML格式数据保存到Oracle 数据库的BLOB类型字段中
Kettle编写的Trans脚本在直接处里读取dawenben原创 2014-05-26 15:33:03 · 5439 阅读 · 0 评论 -
Kettle——转换步骤信息统计两种实现
Kettle-步骤数据处理数量记录获取 Kettle获取数据处理条数记录日志信息:以前的途径是配置转换的日志信息来保存到数据库中,这种方式不是很灵活。 有没有一种类似步骤方式来进行获取呢?Kettle在5.0版本中提供了一个步骤:在【统计】-【转换步骤信息统计】。 【转换步骤信息统计】步骤使用方式也很简单 ![这里写图片描述](http://im原创 2015-06-30 09:50:57 · 18127 阅读 · 15 评论 -
Kettle——表输出步骤异常处理方式探究
在使用开源ETL工具Kettle定义转换时,为了保证transformation脚本的健壮性,我们会在关键的步骤上进行异常捕获处理。 kettle工具的transformation中的多数步骤都是支持定义错误处理的。因TableOutput涉及数据库事务,所以本篇文章以TableOutput步骤来探究kettle异常处理的方式。文章中难免错在遗漏和错误之处,敬请谅解。1 测试环境2 普通方原创 2016-01-17 14:41:50 · 19283 阅读 · 2 评论