kettle增量抽取框架

原创 2016年05月30日 17:45:04

利用kettle进行数据抽取,其实和手工的ETL流程差不多,最近结合项目整理了一个简单实用的抽取框架。

一、抽取的大致流程:、


二、kettel框架:


三、细节介绍:

1、SET_START_DATE:得到系统当前的时间,作为抽取的开始时间。

2、GET_MINETLFLAG:从ETL的日志表中的到当前的最小FLAG,一般为时间戳。

3、GET_TAREGT_TABLE_CHANGE:得到插入、更新等数据库操作的数量,后面记录到日志表

4、GET_MAXETLFLAG:从目标库中取到最大的时间戳,作为下次抽取的最小时间。

5、WRITE_ETLLOG:获取前面的赋值的变量,写入log表。

6、参数设置:这里的参数,主要是log表的一些字段。


四、日志表的设计

log表的设计:

TABLENAME    :抽取目标表表名
ETLBEGINTIME : 抽取开始时间
ETLENDTIME   : 抽取结束时间
INSERTNUM    : 插入记录数
UPDATENUM    :更新记录数
DELNUM       : 删除记录数
MERGENUM     : 总数据量
ETLFLAG      : 时间戳
MSG          : 消息
SSXQ         : 所属地市


FLAG表设计:

ETL_ID          : 抽取表名
ETL_NAME        : 抽取信息
ETL_FLAG        : 抽取状态
ETL_SUCCEED_NUM : 成功次数
ETL_ERROR_NUM   : 失败次数
TABLENAME_MC    : 中文表名





版权声明:本文为博主原创文章,未经博主允许不得转载。

使用kettle进行增量抽取数据

使用背景: 当前项目中使用的数据依赖于其它系统,别人的系统当然不会把实时更新的数据一个不差的发送给我们(当然更加不会让我们对他们系统的数据库进行编程),所以我们要自己动手去获取他们系统中的数据。使用...

kettle入门(七) 之kettle增量方案(一)全量比对取增量-根据唯一标示

kettle的转换ktr里有一个图元叫做合并记录可以把数据记录分为源和目的根据唯一标示 进行全量比对,...

Kettle-7.0增量抽取订单数据

原文来自:http://www.ukettle.org/thread-594-1-1.html业务需求:从mysql数据库中,抽取订单和订单明细数据,做一定的轻度清洗,并将清洗后的数据存放到指定目录下...

Kettle实现循环增量抽取数据

数据量数以千万计时,初次一次性抽取历史数据容易出现卡死,针对这种情况可以使用循环年份抽取,并且加入增量程序使得后续抽取增量化! 整体流程: 1、获取年份极值(获取历史有数据的年...

Kettle_抽取数据举例

实验项目:使用kettle完成scott用户下的emp表数据抽取到hyl用户下emptest表   实验环境 操作系统:WIN7 数据库:Oracle11G R2 64 bit KETTLE版本:ve...

Kettle数据抽取---增量抽取

使用KETTLE实现数据的增量抽取的方法大致如下: 从目标表中读取最大的时间戳或者增量字段ID,作为条件,然后把源表中所有大于这个增量字段的数据读出来,插入到目标表当中去; 1.打开Kettle工具,...
  • zftang
  • zftang
  • 2011年02月05日 23:16
  • 9727

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

kettle入门(六) 之kettle抽取变量表名表

kettle抽取变量表名表Job

pentaho kettle 实现数据库间增量同步

今天刚接触 etl工具, 公司要求要实现一个 数据库同步任务,要求从两个表中同步数据。所以写下这篇博客记录一下。 思路:     常用的同步机制 就是  在A表中添加 时间戳字段  命名为 ...

KETTLE如何实现实时的增量更新(两种方法)

要实现实时的增量更新共有两种方法: 1.通过触发器。在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:kettle增量抽取框架
举报原因:
原因补充:

(最多只允许输入30个字)