增量数据同步实现方案 Dataworks VS Kettle

(一) Kettle

1、查询中间表 table_d 中的最大时间 t_d_max
2、查询原始表 table_o 中的最大时间 t_o_max
3、数据同步
insert into table_d
selet xxx
from table_o
where t_o_max > 时间字段 > t_d_max – 大于和小于,两个比较都不要加等号

(二) DataWorks

场景和需求:
1、GPS实时数据,需要每小时同步一次;
2、数据有 3 分钟的延迟;

同步方案:
1、调度设置:调度周期为小时
2、开始时间 0:30,时间间隔 1 小时,结束时间 23:59

DataWorks 任务参数设置:

	# 分区
	dt = ${bdp.system.cyctime}
	# 根据业务时间数据分片
	gpstime>='${t1}' and gpstime<='${t2}'
	# 参数设置
	-p"t1='$[yyyy-mm-dd-1/24] $[hh24-1/24]:00:00' t2='$[yyyy-mm-dd-1/24] $[hh24-1/24]:59:59'"
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值