Hive开发小技巧

EXPLAIN

explain对于很多同学应该是很熟悉的命令了,可以通过该命令来查看SQL的执行计划,在显示的计划中有一个TableScan Operator,其中有一项信息(Num Rows)就为我们展示了表的记录数。具体命令如下:

explain select * from table_name

图片


ANALYZE

尽管explain命令已经可以很快的让我们看到表的总记录数,但在一些场景表下就无法使用了。例如对于分区表,如果我们想要查看每个分区下的总记录数,显然就不能通过explain命令来帮助我们了。

此刻可以通过analyze来解决这种场景问题。对于analyze的具体使用方式如下:

ANALYZE TABLE [db_name.]tablename 
[PARTITION(partcol1[=val1], partcol2[=val2], ...)]  -- (Note: Fully support qualified table name since Hive 1.2.0, see HIVE-10007.)
COMPUTE STATISTICS
[FOR COLUMNS] --当指定了该可选参数,则会对列信息进行统计 (Note: Hive 0.10.0 and later.)
[CACHE METADATA] -- (Note: Hive 2.1.0 and later.)
[NOSCAN] --当指定了可选参数 NOSCAN 时,该命令将不会扫描文件,速度会很快;

示例如下:

analyze table db_name.table_name 
partition(date_id) 
compute statistics noscan;

图片

当然对于非分区表analyze也是可以统计到表的总记录数,如下述命令:

analyze table db_name.table_name compute statistics nocscan;

图片


Show

除了以上两种方式,也可以通过日常使用比较多的show命令来查看表总记录数。示例如下:

show tblproperties db_name.table_name

图片

但是需要注意的是该命令是通过读取tblproperties中的信息,对于一些表如果未统计到,则不存在numRows


Describe

describe和show的原理其实是一样的,同样也可以查看表总记录数。示例如下:

describe formatted db_name.table_name

-- or 
describe extended db_name.table_name

图片


MetaData

前面介绍的几项命令都是静态统计,其中的静态统计的数据都存储在元数据中。因此最直接的方式就是通过元数据存储库进行查询。(需要注意有些表统计不到,用-1标志位表示))

查看表总记录数

select 
  concat(t1.name,'.',t2.tbl_name) as table_name,
  coalesce(t3.param_value,-1) as num_of_rows
from hive.dbs t1
left join hive.tbls t2
on t1.db_id = t2.db_id 
left join hive.table_params t3
on t2.tbl_id = t3.tbl_id
  and t3.param_key='numRows'

图片

查看分区总记录数

select 
 concat(t1.name,'.',t2.tbl_name) as table_name,
 t3.part_name as partition_name,
 t4.param_value
from hive.dbs t1
join hive.tbls t2
on t1.db_id = t2.db_id 
join hive.partitions t3
on t2.tbl_id = t3.tbl_id
left join hive.partition_params t4
on t3.part_id = t4.part_id
  and t4.param_key='numRows'

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值