记录一种impala列数据偏移列头的情况

最新推荐文章于 2024-01-12 15:13:51 发布

li_qin_hong

最新推荐文章于 2024-01-12 15:13:51 发布

阅读量455

点赞数 2

分类专栏：大数据 IT|软件|程序文章标签： sql linux hadoop spark hive

本文链接：https://blog.csdn.net/li_qin_hong/article/details/114047787

版权

IT|软件|程序同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

大数据

1 篇文章 0 订阅

订阅专栏

写在前头：亲，以下内容仅用于个人备忘录，如需转发或看了激动了，请写明出处！

最近，公司一个项目中为了提升hive数据的查询分析性能，基于hive的元数据，引入了开源的impala技术，一开始，波澜不惊，hive表该怎么建，该怎么元数据一致性检查；impala该怎么invalidate metadata/refresh tablename都ok，没过多久，同事的一次建表操作impala数据的发生了列数据偏移，针对这个问题我觉得有意义来记录一下，具体如下：

（图一）

（图二）

同志们应该发现情况了吧！同样的查询条件，impala的查出的数据与列头产生了偏移，hive查出的数据是正确的。

对应hive建表语句：

（图三）

由于数据在hdfs上采用的是parquet列式存储格式，想到impala对parquet的一种建表方式，如下：

CREATE EXTERNAL TABLE xxxdb.xxxtable LIKE PARQUET   'hdfs://xxx.com.cn:{port}/xxx/xxx/xxx/dt=xxx/xxx.snappy.parquet'
PARTITIONED BY (dt STRING)
STORED AS PARQUET LOCATION 'hdfs://xxx.com.cn:{port}/xxx/xxx/xxx'

对应在hive中show出来是这样的：

（图四）

parquet文件本身的列顺序是这样的，与图四展示的一致：

（图五）

最终，抱着试一试的态度修复、刷新元数据后impala的数据列尽然都对应上了，如下：

（图六）

（图七）

总结：

1、对于parquet文件，考虑到impala的使用，hive建表时，字段顺序尽量与parquet文件列的顺序一致，不然你在impala中使用invalidate metadata 或者refresh同步这张表的数据时，显示的数据可能就会偏移，这是由于impala加载parquet数据时，默认是依据表的列从左到右的顺序去解析数据的,如下图所示：

当然，你也可以使在使用数据时，设置PARQUET_FALLBACK_SCHEMA_RESOLUTION=NAME这个参数，让其按照字段名称来解析。如果parquet文件中有包含大写字段，请使用2.9以上的impala版本，不然大写字段无法识别。

2、注意一下hive与impala之间的来回切换，如下图所述：

li_qin_hong

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
记录一种impala列数据偏移列头的情况

记录一种impala列数据偏移列头的情况写在前头：亲，以下内容仅用于个人备忘录，如需转发或看了激动了，请写明出处！最近，公司一个项目中为了提升hive数据的查询分析性能，基于hive的元数据，引入了开源的impala技术，一开始，波澜不惊，hive表该怎么建，该怎么元数据一致性检查；impala该怎么invalidate metadata/refresh tablename都ok，没过多久，同事的一次impala列数据的突然偏移逼得我不得不来CSDN再手痒一下，具体如下： ...
复制链接

扫一扫