一
数值概要
模式描述:
数值概要模式是计算机数据聚合统计值的一般性模式。 对于
合理使用 combiner 以及理解正在做的计算来讲,数值概要模式是极为重要的。
目的
基于某个键将记录
分组,
并对每个分组计算一系列的
聚合值,从而
得到较大
数据集的
高层次视图。
适用场景
要处理的数据是数值数据或者计数
数据可以按照特定的字段进行分组
如: 用户登录网站、输入查询、执行其他特定操作。广告在不同时间段的效果
以上所有问题都可以
通过计算数据集 数值概要得到高层次视图来解答
对很多
数值概要函数来说, combiner 可以极大减少通过网络传输到 reduce 端的中间键/值 对的数据量。 也就是满足
结合律 和
交换律。
很多数值概要函数通过定制 partitioner 来实