Streamsets FAQ(四)SS同步binlog到kudu时间少8小时

1、问题描述

当前使用的是CDH-6.2.0和SS-3.13.0版本,在同步增量binlog数据到MySQL的时候datetime格式的字段时间会多出8小时,基于这个原因我们修改了SS里面的mysql-binlog-connector-java-0.13.0.jar源码

streamsets-3.13.0中使用的mysql-binlog-connector-java是0.13.0版本,找到0.13.0的源码,

https://github.com/shyiko/mysql-binlog-connector-java/blob/0.13.0/src/main/java/com/github/shyiko/mysql/binlog/event/deserialization/AbstractRowsEventDataDeserializer.java

修改其中的AbstractRowsEventDataDeserializer.java,修改其中的fallbackToGC方法,重新定义Calendar类对象,去除TimeZone.getTimeZone("GMT")

private static long fallbackToGC(int year, int month, int dayOfMonth, int hourOfDay,
                                         int minute, int second, int millis) {
	// 将原先的Calendar c = Calendar.getInstance(TimeZone.getTimeZone("GMT"));注释掉
	//Calendar c = Calendar.getInstance(TimeZone.getTimeZone("GMT"));
	// 重新定义Calendar
	Calendar c = Calendar.getInstance();
	c.set(Calendar.YEAR, year);
	c.set(Calendar.MONTH, month - 1);
	c.set(Calendar.DAY_OF_MONTH, dayOfMonth);
	c.set(Calendar.HOUR_OF_DAY, hourOfDay);
	c.set(Calendar.MINUTE, minute);
	c.set(Calendar.SECOND, second);
	c.set(Calendar.MILLISECOND, millis);
	return c.getTimeInMillis();
}

重新打包并进行jar包替换,问题得以解决。但是在这个基础上对binlog数据同步到kudu中时发现timestamp格式的字段时间少了8小时。

 

2、解决方案

尝试了很多办法,pipeline如下

数据插入的时间是2020-04-07 10:31:28,数据从binlog出来的时候,create_at和update_at这两个datetime格式的字段被解析为了CST格式,并且真实时间已经少了8小时(这个可能是因为SS的界面时区为UTC问题,暂不确定)

这两个字段流入后面的stage时是携带数据格式和数据值的,最终的local FS中create_at和update_at以时间戳格式存储,这个时间戳是正确的

但是kudu中的数据会被解析为kudu中定义的timestamp格式,时间却少了8小时,变成了2020-04-07 02:31:28,和界面当做preview阶段看到的create_at和update_at值一致。

在这里我做了一些尝试,包括增加JavaScript evaluate stage对时间进行转换,或者将CST时间转成时间戳再加8小时等等,但是最终效果都不是太好并且很麻烦。我自己修改了mysql-binlog-connector-java-0.13.0.jar源码中的Calendar对象时区,是为了解决binlog到MySQL同步时间一致问题,但是导致了binlog到kudu时间少了8小时,于是我将该jar包还原,重启SS,重新运行该pipeline,发现binlog同步到kudu的datetime字段时间不一致问题已经解决,但是binlog到mysql时间又多了8小时,但是这个比较好解决,入库到MySQL使用的是jdbc consumer stage,可以在JDBC Query Consumer这个stage的JDBC配置项中往下拉,在最后的Additional JDBC Configuration Properties中增加2个配置即可。

serverTimezone    UTC
useTimezone    true

 

©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页