HIVE Statistics
介绍
统计信息,例如一个表有多少行,多少个分区,列的直方图等重要的信息。统计信息的关键作用是查询优化。把统计信息作为输入,通过成本优化函数,可以方便的比较不同的查询方案,并且从中进行最优的执行计划。统计数据有时可以直接满足用户的查询目的。比如他们只是查询一些基础数据,而不需要通过运行执行计划.例如,用户的年龄分布,使用最多的top10的apps,多少个不同的session等。
1.表和分区统计
1)行数
2)文件数
3)字节数
2.列统计
在表列信息上进行统计
1)number of distinct values
2)number of NULL values
3)min/max k values where k could be given by user
4)histogram: frequency and height balanced
5)average size of the column
6)avg/sum of all values in the column if their type is numerical
7)percentiles of the value
3.top K 统计
如果表没有指定为skew(有空深入了解下skew table),最倾斜的列名称和top k值被存在分区表或者无分区表的倾斜信息中。top k统计默认是不可用的,这里不多做介绍,想深入了解的话可以参考官方文档。
实现
统计操作分为两种类型,一种是在newly created table上进行信息统计,另外是在existing table 上进行信息统计。关于两种表的说明在下边。
newly created table 和existing table的统计信息计算方法相似,对于newly created table,通过mapreduce来创建一个表,在创建的过程中,每个mapper在FileSink operator中复制每一行,并且获取统计信息,存储到数据库中,在mapreduce结束,存储的统计信息在metastore中进行聚合。
existing tables的统计信息生成也是一个相似的过程,会创建一个map-only的job,每个mapper处理表在tablescan operator,获取统计信息,最后过程与上边类似。

本文介绍了HIVE的统计信息,包括表和分区的统计、列统计以及Top K统计。统计信息对查询优化至关重要,涉及行数、文件数、字节数、不同值数量、NULL值、范围、直方图等。文章详细讲述了新创建表和已有表的统计信息收集,以及ANALYZE TABLE命令的用法,包括NOSCAN选项。还提到了统计信息的存储实现,如MySQL或HBase,并讨论了如何配置和控制统计信息的收集行为。
最低0.47元/天 解锁文章
4万+

被折叠的 条评论
为什么被折叠?



