三概要模式 1)数值概要 (单词计数\记录计数\最大值/最小值/计数\平均值、中位数、标准差)...

最新推荐文章于 2022-05-07 15:06:22 发布

weixin_30707875

最新推荐文章于 2022-05-07 15:06:22 发布

阅读量453

点赞数

文章标签：大数据 java 数据结构与算法

原文链接：http://www.cnblogs.com/rocky24/p/e7afd5afb84b6b78a9f3090a3155f65b.html

版权

一 数值概要

模式描述：

数值概要模式是计算机数据聚合统计值的一般性模式。对于合理使用 combiner 以及理解正在做的计算来讲，数值概要模式是极为重要的。

目的

基于某个键将记录分组，并对每个分组计算一系列的聚合值，从而得到较大数据集的高层次视图。

适用场景

要处理的数据是数值数据或者计数

数据可以按照特定的字段进行分组

如：用户登录网站、输入查询、执行其他特定操作。广告在不同时间段的效果

以上所有问题都可以通过计算数据集数值概要得到高层次视图来解答

对很多数值概要函数来说， combiner 可以极大减少通过网络传输到 reduce 端的中间键/值对的数据量。也就是满足 结合律 和 交换律。

很多数值概要函数通过定制 partitioner 来实现更优的将 K/V 对发送到 n 个 reduce 任务。如果启动100 个reduce 任务，其中 80% 任务30S 完成。而其余20个任务用了20分钟的话，那么效率就不高。像这种任务的执行时间要求很高，数据量非常大，且存在数据倾斜的情况，定制 partitioner 将是非常有必要的解决方案。

已知应用：

单词计数：对每一个单词输出其内容和总计次数。

记录计数：对特定的时间间隔（天，周，每小时等）计算数据每个周期内的数据流速

最大值/最小值/计数：如用户第一次发表评论时间，最后一次发表评论时间或指定时间段评论数目。

平均值、中位数、标准差：由于这些操作不满足结合律，因此实现起来没有那么直接，这三者都可以使用 combiner，但与之前简单的重复使用 reduce 实现不同，需要使用更为复杂的方式达到目标。

平均值因为这两个计算是不满足结合律的，所以不能像之前那样轻松的得到 combiner 的益处。中位数是将数据集分成搞和低两部分的那个数值，这要求数据集是完整的并且是混排过的。同事数据必须是经过排序的。

平均值 map 计算代码（如图：将相同键相加计数与值得到单个map 的平均数。 reduce 阶段将所有map 计数与平均值相乘在重新得到平均值。）

标准差（Standard Deviation）

标准差也被称为标准偏差，或者实验标准差，公式为

意义：标准差是一组数据平均值分散程度的一种度量。一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。

例如，两组数的集合 {0,5,9,14} 和 {5,6,8,9} 其平均值都是 7 ，但第二个集合具有较小的标准差。

说人话等于：将所有集合的值遍历相加减去平均值，它的平方和除以数的个数（或个数减一)，再把所得值开根号，就是1/2次方，得到的数就是这组数的标准差。

代码就是

如果是单点的话可以用写好的算法工具类来实现，不过在集群计算中，需要灵活的拆分可能需要自己写一些方便操作的工具类了。

标准差可以当作不确定性的一种测量。例如在物理科学中，做重复性测量时，测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值，测量值的标准差占有决定性重要角色：如果测量平均值与预测值相差太远（同时与标准差数值做比较），则认为测量值与预测值互相矛盾。这很容易理解，因为如果测量值都落在一定数值范围之外，可以合理推论预测值是否正确。

标准差应用于投资上，可作为量度回报稳定性的指标。标准差数值越大，代表回报远离过去平均数值，回报较不稳定故风险越高。相反，标准差数值越小，代表回报较为稳定，风险亦较小。

百度link：

来源： <http://baike.baidu.com/link?url=IpGqadoAZdICs9OdE0_-kw2WRIfWMDtp6HT1smUDQ6vxNyOAmngo6ktIO6LO6hiRg6r11WAUi79dMYIhpO7_9q>

内存优化版的中位数和标准差

减少内存使用量。将每一个数值插入到一个列表中会产生大量的重复元素。一个规避重复数据的方法是保存元素的技术。例如：要保存《1,1,1,1,2,2,3,4,5,5,5》这样的一个map。可以使用排序好的值到计数的映射来代替（1-4,2-2,3-1,5-3 )。 combiner 可以用来聚合 map 端的计数，并映到一个 Writable 对象供后续的 reduce 使用。

对于有 N 条评论的列表计算每个评论长度出现多少次，原有方法需要存储空间为 O(N) ,M是最大评论长度。采用映射之后 k/v 对的数量为 O (max(m))。 combiner 可以用来聚合 map 端的评论长度计数，并输出映射到一个 Writable 对象供后续的 reduce 使用。

问题：给定一个用户评论列表，确定其一天中每个小时的评论长度的中位数和标准差。

mapper 代码:

mapper 的处理需要计算按天每小时评论长度中位数的输入记录。输出键是一天的小时值，输出值是一个 SortedMapWritable 对象，包含一个元素：评论长度和一个计数“1”。这个映射将在 combiner 和 reduce 中多次使用。

rg.apache.hadoop.io包中，有4个Writable集合类：ArrayWritable，TwoDArrayWritable 是对Writable的数组和两维数组的实现，它们中所有元素必须是同一类的实例。MapWritable和SortedMapWritable。分别实现了java.util.Map和java.util/OsrtedMap。每个键/值字段使用的类型是相应字段序列化形成的一部分。类型存储为单个字节（充当类型数组的索引）。在org.apache.hadoop.io包中，数组经常与标准类型结合使用，而定制的Writable类型也通常结合使用，但对于非标准类型，则需要在包头中指明所使用的数组类型。根据实现，MapWritable类和SortedMapWritable类通过正byte值来指示定制的类型，所以在MapWritable和SortedMapWritable实例中最多可以使用127个不同的非标准Wirtable类。

reduce 代码：

reduce 代码遍历给定的 SortedMapWritable 集合并将所有的映射聚合到一个 SortedMap 实现的 TreeMap 数据结构中。键是长度，值是对应这个评论长度的全部计数。

中位数：通过遍历，计算出中位数，通过将全部评论数的综合除以2作为查找中位数的列下标。 previousCommentCount <= medianIndex < commentCount。

标准差：接下来通过遍历 TreeMap 来找出平方的总和。中位数和标准差作为值与评论被发出的小时时间作为键一起被输出。

combiner 优化：

这个算法的 combiner 实现与 reduce 不同。 reduce 需要计算中位数和标准差，而 combiner 对每个本地 map 的中间 k/v 聚合 SortedMapWritable 条目。考虑到这不需要做排序并且 HashMap 有较高的新能，因此选择 HashMap 代替 TreeMap。 reduce 需要使用评论长度到技术的映射来计算中位数和标准差。而 combiner 使用SortedMapWritable 来序列化其输出以供 reduce 阶段使用。

来自为知笔记(Wiz)

转载于:https://www.cnblogs.com/rocky24/p/e7afd5afb84b6b78a9f3090a3155f65b.html

weixin_30707875

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
三概要模式 1)数值概要 (单词计数\记录计数\最大值/最小值/计数\平均值、中位数、标准差)...

一数值概要模式描述：数值概要模式是计算机数据聚合统计值的一般性模式。对于合理使用 combiner 以及理解正在做的计算来讲，数值概要模式是极为重要的。目的基于某个键将记录分组，并对每个分组计算一系列的聚合值，从而得到较大数据集的高层次视图。适用场景要处理的数据是数值数据或者计数数据可以按照...
复制链接

扫一扫