为什么要查询表数据量
在做数据仓库管理时,数据导入hive或向表生成数据后形成的数据资产,表里的数据量和占用存储空间是总要的元数据属性。为方便数据使用时对数据有基本的了解,需要对表的数据量做统计。
使用 analyze table 主动生成元数据信息
analyze table tableName [partition(partCol[=‘value‘])] compute statistics;
分区表必须添加partition字段才能执行,执行
使用desc extended tableName 方法
desc extended databaseName.tableName;
使用可以查看非分区表
parameters:{totalSize=126532790,
rawDataSize=125773613,
numRows=759177,
COLUMN_STATS_ACCURATE={"BASIC_STATS":"true"},
numFiles=6,
transient_lastDdlTime=1590736183,
comment=单位基本信息},
使用 show create table tableName 查看
show create table tableName;
......
TBLPROPERTIES (
‘COLUMN_STATS_ACCURATE‘=‘{\"BASIC_STATS\":\"true\"}‘,
‘numFiles‘=‘6‘,
‘numRows‘=‘759177‘,
‘