HIVE Statistics
介绍
统计信息,例如一个表有多少行,多少个分区,列的直方图等重要的信息。统计信息的关键作用是查询优化。把统计信息作为输入,通过成本优化函数,可以方便的比较不同的查询方案,并且从中进行最优的执行计划。统计数据有时可以直接满足用户的查询目的。比如他们只是查询一些基础数据,而不需要通过运行执行计划.例如,用户的年龄分布,使用最多的top10的apps,多少个不同的session等。
1.表和分区统计
1)行数
2)文件数
3)字节数
2.列统计
在表列信息上进行统计
1)number of distinct values
2)number of NULL values
3)min/max k values where k could be given by user
4)histogram: frequency and height balanced
5)average size of the column
6)avg/sum of all values in the column if their type is numerical
7)percentiles of the value
3.top K 统计
如果表没有指定为skew(有空深入了解下skew table),最倾斜的列名称和top k值被存在分区表或者无分区表的倾斜信息中。top k统计默认是不可用的,这里不多做介绍,想深入了解的话可以参考官方文档。
实现
统计操作分为两种类型,一种是在newly created table上进行信息统计,另外是在existing table 上进行信息统计。关于两种表的说明在下边。
newly created table 和existing table的统计信息计算方法相似,对于newly created table,通过mapreduce来创建一个表,在创建的过程中,每个mapper在FileSink operator中复制每一行,并且获取统计信息,存储到数据库中,在mapreduce结束,存储的统计信息在metastore中进行聚合。
existing tables的统计信息生成也是一个相似的过程,会创建一个map-only的job,每个mapper处理表在tablescan operator,获取统计信息,最后过程与上边类似。