HIVE Statistics(三)

HIVE Statistics

介绍

统计信息,例如一个表有多少行,多少个分区,列的直方图等重要的信息。统计信息的关键作用是查询优化。把统计信息作为输入,通过成本优化函数,可以方便的比较不同的查询方案,并且从中进行最优的执行计划。统计数据有时可以直接满足用户的查询目的。比如他们只是查询一些基础数据,而不需要通过运行执行计划.例如,用户的年龄分布,使用最多的top10的apps,多少个不同的session等。
1.表和分区统计
1)行数
2)文件数
3)字节数

2.列统计
在表列信息上进行统计
1)number of distinct values
2)number of NULL values
3)min/max k values where k could be given by user
4)histogram: frequency and height balanced
5)average size of the column
6)avg/sum of all values in the column if their type is numerical
7)percentiles of the value

3.top K 统计
如果表没有指定为skew(有空深入了解下skew table),最倾斜的列名称和top k值被存在分区表或者无分区表的倾斜信息中。top k统计默认是不可用的,这里不多做介绍,想深入了解的话可以参考官方文档。

实现

统计操作分为两种类型,一种是在newly created table上进行信息统计,另外是在existing table 上进行信息统计。关于两种表的说明在下边。
newly created table 和existing table的统计信息计算方法相似,对于newly created table,通过mapreduce来创建一个表,在创建的过程中,每个mapper在FileSink operator中复制每一行,并且获取统计信息,存储到数据库中,在mapreduce结束,存储的统计信息在metastore中进行聚合。

existing tables的统计信息生成也是一个相似的过程,会创建一个map-only的job,每个mapper处理表在tablescan operator,获取统计信息,最后过程与上边类似。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值