EXPLAIN
explain对于很多同学应该是很熟悉的命令了,可以通过该命令来查看SQL的执行计划,在显示的计划中有一个TableScan Operator,其中有一项信息(Num Rows)就为我们展示了表的记录数。具体命令如下:
explain select * from table_name
ANALYZE
尽管explain命令已经可以很快的让我们看到表的总记录数,但在一些场景表下就无法使用了。例如对于分区表,如果我们想要查看每个分区下的总记录数,显然就不能通过explain命令来帮助我们了。
此刻可以通过analyze来解决这种场景问题。对于analyze的具体使用方式如下:
ANALYZE TABLE [db_name.]tablename
[PARTITION(partcol1[=val1], partcol2[=val2], ...)] -- (Note: Fully support qualified table name since Hive 1.2.0, see HIVE-10007.)
COMPUTE STATISTICS
[FOR COLUMNS] --当指定了该可选参数,则会对列信息进行统计 (Note: Hive 0.10.0 and later.)
[CACHE METADATA] -- (Note: Hive 2.1.0 and later.)
[NOSCAN] --当指定了可选参数 NOSCAN 时,该命令将不会扫描文件,速度会很快;
示例如下:
analyze table db_name.table_name
partition(date_id)
compute statistics noscan;
当然对于非分区表analyze也是可以统计到表的总记录数,如下述命令:
analyze table db_name.table_name compute statistics nocscan;
Show
除了以上两种方式,也可以通过日常使用比较多的show命令来查看表总记录数。示例如下:
show tblproperties db_name.table_name
但是需要注意的是该命令是通过读取tblproperties中的信息,对于一些表如果未统计到,则不存在numRows
。
Describe
describe和show的原理其实是一样的,同样也可以查看表总记录数。示例如下:
describe formatted db_name.table_name
-- or
describe extended db_name.table_name
MetaData
前面介绍的几项命令都是静态统计,其中的静态统计的数据都存储在元数据中。因此最直接的方式就是通过元数据存储库进行查询。(需要注意有些表统计不到,用-1标志位表示))
查看表总记录数
select
concat(t1.name,'.',t2.tbl_name) as table_name,
coalesce(t3.param_value,-1) as num_of_rows
from hive.dbs t1
left join hive.tbls t2
on t1.db_id = t2.db_id
left join hive.table_params t3
on t2.tbl_id = t3.tbl_id
and t3.param_key='numRows'
查看分区总记录数
select
concat(t1.name,'.',t2.tbl_name) as table_name,
t3.part_name as partition_name,
t4.param_value
from hive.dbs t1
join hive.tbls t2
on t1.db_id = t2.db_id
join hive.partitions t3
on t2.tbl_id = t3.tbl_id
left join hive.partition_params t4
on t3.part_id = t4.part_id
and t4.param_key='numRows'