Hive读取索引文件问题：select * 和select count(*)读取出来的行数不一致

孙晨c

已于 2022-12-31 14:21:12 修改

阅读量1k

点赞数

分类专栏：踩坑记录 Hive 文章标签： hadoop 索引大数据 hive

于 2021-02-04 17:41:11 首次发布

本文链接：https://blog.csdn.net/DTFT_/article/details/113658538

版权

踩坑记录同时被 2 个专栏收录

46 篇文章 0 订阅

订阅专栏

Hive

11 篇文章 0 订阅

订阅专栏

两种方式，分别查询数据有多少行：

hive (gmall)> select * from ods_log;
Time taken: 0.706 seconds, Fetched: 2955 row(s)

hive (gmall)> select count(*) from ods_log;
2959

两次查询结果不一致的原因分析

hive (gmall)> 
drop table if exists ods_log;
CREATE EXTERNAL TABLE ods_log (`line` string)
PARTITIONED BY (`dt` string) -- 按照时间创建分区
STORED AS -- 指定存储方式，读数据采用LzoTextInputFormat；
  INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
  OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/warehouse/gmall/ods/ods_log'  -- 指定数据在hdfs上的存储位置
;

这是当时创建表时的语句，指定了存储格式为lzo，然后执行了为lzo文件创建索引的命令

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer -Dmapreduce.job.queuename=hive /warehouse/gmall/ods/ods_log/dt=2020-06-14

在这里插入图片描述
所以在HDFS上的hive里存着lzo格式数据和lzo.index索引文件，这便于对文件进行切片。

但是select * from ods_log不执行MR操作，默认采用的是ods_log建表语句中指定的DeprecatedLzoTextInputFormat，能够识别lzo.index为索引文件。
select count(*) from ods_log执行MR操作，默认采用的是CombineHiveInputFormat，不能识别lzo.index为索引文件，将索引文件当做普通文件处理。更严重的是，这会导致LZO文件无法切片。

孙晨c

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
3
评论
Hive读取索引文件问题：select * 和select count(*)读取出来的行数不一致

两种方式，分别查询数据有多少行：hive (gmall)> select * from ods_log;Time taken: 0.706 seconds, Fetched: 2955 row(s)hive (gmall)> select count(*) from ods_log;2959两次查询结果不一致的原因分析hive (gmall)> drop table if exists ods_log;CREATE EXTERNAL TABLE ods_log (`l
复制链接

扫一扫