Streamsets FAQ(二)关于SS的8小时问题

1、问题描述

在使用SS进行数据同步的过程中发现有8小时差值问题,具体表现为在使用JDBC Query Consumer这样的stage入到kudu时发现数据比MySQL中数据小8小时。在使用MySQL Binary Log这样的stage解析binlog数据时数据比MySQL中数据大了8小时,针对2种情况处理方式是不一样的。

 

2、解决方案

2.1、JDBC Query Consumer

在JDBC Query Consumer这个stage的JDBC配置项中往下拉,在最后的Additional JDBC Configuration Properties中增加2个配置

serverTimezone    UTC
useTimezone    true

 

清空kudu数据,重置pipeline的offset,运行一下发现数据到kudu后时区不一致的问题解决了

 

2.2、MySQL Binary Log

SS中解析binlog使用的是一个开源项目mysql-binlog-connector-java

https://github.com/shyiko/mysql-binlog-connector-java

该问题github上有人遇到过

https://github.com/shyiko/mysql-binlog-connector-java/issues/193

我们看一下当前SS服务中的mysql-binlog-connector-java是哪个版本

sudo find /opt/ -name mysql-binlog-connector-java* 

 

 

/opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR/streamsets-libs/streamsets-datacollector-mysql-binlog-lib/lib

streamsets-3.13.0中使用的mysql-binlog-connector-java是0.13.0版本,找到0.13.0的源码,

https://github.com/shyiko/mysql-binlog-connector-java/blob/0.13.0/src/main/java/com/github/shyiko/mysql/binlog/event/deserialization/AbstractRowsEventDataDeserializer.java

修改其中的AbstractRowsEventDataDeserializer.java,修改其中的fallbackToGC方法,重新定义Calendar类对象,去除TimeZone.getTimeZone("GMT")

private static long fallbackToGC(int year, int month, int dayOfMonth, int hourOfDay,
                                         int minute, int second, int millis) {
	// 将原先的Calendar c = Calendar.getInstance(TimeZone.getTimeZone("GMT"));注释掉
	//Calendar c = Calendar.getInstance(TimeZone.getTimeZone("GMT"));
	// 重新定义Calendar
	Calendar c = Calendar.getInstance();
	c.set(Calendar.YEAR, year);
	c.set(Calendar.MONTH, month - 1);
	c.set(Calendar.DAY_OF_MONTH, dayOfMonth);
	c.set(Calendar.HOUR_OF_DAY, hourOfDay);
	c.set(Calendar.MINUTE, minute);
	c.set(Calendar.SECOND, second);
	c.set(Calendar.MILLISECOND, millis);
	return c.getTimeInMillis();
}

使用maven打包

mvn package -DskipTests

修改好之后打成jar包,替换SS服务器上的mysql-binlog-connector-java-0.13.0.jar,重启SS服务,再运行一下这个pipeline,往test表插入几条数据,验证本地输出的datetime类型的数据值,发现其数值已经正常

 

注:修改mysql-binlog-connector-java源码重新打包来解决8小时问题最终并带来了新的问题,即解析binlog入库kudu导致kudu的timestamp字段时间比mysql的datetime字段少8小时,最终还是将mysql-binlog-connector-java还原为系统自带的,务必注意,如果mysql的字段类型不是datetime而是timestamp的话使用自带的mysql-binlog-connector-java会导致kudu比mysql少8小时,因此最好mysql时间都定义为datetime类型。

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值