参考官网:https://cwiki.apache.org/confluence/display/Hive/StatsDev
一、Hive分析统计语句如下:
ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)] -- (Note: Fully support qualified table name since Hive 1.2.0, see HIVE-10007.)
COMPUTE STATISTICS
[FOR COLUMNS] -- (Note: Hive 0.10.0 and later.)
[CACHE METADATA] -- (Note: Hive 2.1.0 and later.)
[NOSCAN];
二、使用举例
--使用noscan,不会scan file,因此很快。但只能得到文件数numFiles和HDFS存储空间大小totalSize
hive> ANALYZE TABLE qfqhqtest COMPUTE STATISTICS noscan;
Table default.qfqhqtest stats: [numFiles=1, numRows=0, totalSize=816618, rawDataSize=0]
-- 不使用scan,则会scan file,会得到行数 numRows和原始数据大小rawDataSize(未压缩),并更新到元数据表中,下次noscan也能得到这些字段
hive> ANALYZE TABLE qfqhqtest COMPUTE STATISTICS;
Table default.qfqhqtest stats: [numFiles=1, numRows=7867, totalSize=816618, rawDataSize=800884]
hive> ANALYZE TABLE qfqhqtest COMPUTE STATISTICS noscan;
Table default.qfqhqtest stats: [numFiles=1, numRows=7867, totalSize=816618, rawDataSize=800884]
OK
Time taken: 0.151 seconds
统计字段含义

2497

被折叠的 条评论
为什么被折叠?



