1.问题描述
Hive表中存储的Timestamp类型的字段日期显示与Impala中查询出来的日期不一致。关于这个问题前面Fayson也讲过《Hive中的Timestamp类型日期与Impala中显示不一致分析》,在SQL中需要添加from_utc_timestamp函数进行转换,在编写SQL时增加了一定的工作量。本篇文章主要讲述通过设置Impala Daemon参数来实现,不需要增加from_utc_timestamp函数进行转换。
2.测试准备
1.创建一个简单的测试表
create table date_test4(
id INT,
create_date INT,
create_date_str STRING
);
2.向表中插入一条数据
将当前时间的时间戳和字符串插入到date_test4表中
select unix_timestamp() tt,cast(from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss') as string) dates;
insert into date_test4 values(1, 1511507041, '2017-11-24 02:04:01');
复制
3.通过Hive查询时间显示如下
select id,create_date_str,from_unixtime(create_date) from date_test4;
4.通过Impala查询时间显示如下
select id,create_date_str,cast(create_date as timestamp) from date_test4;
可以看到通过Hive查询看到的时间与通过Impala查询看到的时间不一致;
3.解决方法
1.登录CM,进入Impala服务,进入配置项
Cloudera Manager -> Impala -> Configuration-> Impala Daemon (Scope) -> Impala Daemon Command Line Argument AdvancedConfiguration Snippet (Safety Valve),增加参数:-use_local_tz_for_unix_timestamp_conversions
2.保存配置并重启Impala服务
根据引导进行重启Impala服务。
3.重启成功后,执行SQL进行查询
可以看到再次执行查询的时候,不需要将时间戳转换到指定的时区,时间戳转换后的时间与原始时间一致。
参考文档:http://www.cloudera.com/documentation/enterprise/5-11-x/topics/impala_datetime_functions.html
4.其他问题
在我们上述测试中,时间戳使用的是int类型存储,需要使用cast函数来将字段转为TimeStamp类型,parquet格式的表进行转换时区也是正常的。如果表的字段类型默认为TimeStamp类型,则不需要使用cast函数转换,需要注意的是parquet格式的表,在查询的时候任然存在时区的问题,需要在impala daemon命令行高级配置代码段(安全阀)增加如下参数:
-use_local_tz_for_unix_timestamp_conversions
-convert_legacy_hive_parquet_utc_timestamps
保存重启Impala。
为天地立心,为生民立命,为往圣继绝学,为万世开太平。