从零开始学习Hadoop--补一一个实际的例子

最新推荐文章于 2021-09-24 16:25:59 发布

未济2019

最新推荐文章于 2021-09-24 16:25:59 发布

阅读量4.1k

点赞数

分类专栏：从零开始学习Hadoop 文章标签： hadoop 大数据 hdfs

本文链接：https://blog.csdn.net/lizhe_dashuju/article/details/14125389

版权

本文从零开始介绍学习Hadoop，通过分析Pi值估算原理，讲解了使用Hadoop MapReduce的旧版和新版API来计算Pi值的程序。文章详细阐述了MapReduce的工作流程，包括HalthonSequence算法生成样本点，以及Map和Reduce任务的具体实现。此外，还给出了新版API的代码示例和编译运行方法。

摘要由CSDN通过智能技术生成

1.Pi值估算原理

Hadoop自带的例子中，有一个计算Pi值的例子。这例子比较全面，它用的API是旧版的。本章先分析一下这个例子，然后再用新版的API重新实现一下。

这个程序的原理是这样的。假如有一个边长为1的正方形。以正方形的一个端点为圆心，以1为半径，画一个圆弧，于是在正方形内就有了一个直角扇形。在正方形里随机生成若干的点，则有些点是在扇形内，有些点是在扇形外。正方形的面积是1，扇形的面积是0.25*Pi。设点的数量一共是n，扇形内的点数量是nc，在点足够多足够密集的情况下，会近似有nc/n的比值约等于扇形面积与正方形面积的比值，也就是nc/n= 0.25*Pi/1，即Pi = 4*nc/n。

如何生成随机点？最简单的方式是在[0,1]的区间内每次生成两个随机小数作为随机点的x和y坐标。可惜这种生成方式效果不够好，随机点之间有间隙过大和重叠的可能，会让计算精度不够高。Halton序列算法生成样本点的效果要好得多，更均匀，计算精度比随机生成的点更高，因此这个例子用Halton序列算法生成点集。关于Halton序列可以参考这里http://orion.math.iastate.edu/reu/2001/voronoi/halton_sequence.html和这里http://www.aae.wisc.edu/dphaneuf/AAE%20875/Halton%20sequences.pdf，在这里就不详细说了。

在正方形内生成的样本点越多，计算Pi值越精确，这样，这个问题就很适合用Hadoop来处理啦。假设要在正方形内生成1000万个点，可以设置10个Map任务，每个Map任务处理100万个点，也可以设置100个Map任务，每个Map任务处理10万个点。

2.旧版API的Pi值估算MapReduce程序

此处带来来自Hadoop的示例程序。

为了计算，设置10个Map任务，每个任务处理1000个点，具体流程是这样的：

1)运行PiEstimator的MapReduce程序，输入参数是10，1000，意思是设置10个Map任务，每个Map任务处理1000个点。

2)PiEstimator进行初始化。初始化时，有一个步骤是在HDFS上生成一个目录，也就是输入目录。这个目录下有10个序列文件。Map任务的数量的数量决定序列文件的数量，PiEstimator就生成有10个序列文件。每个序列文件保存两个整数，分别是要处理的样本点在Halton序列的序号和生成样本点的数量。也就是说，第一个文件的内容是”0,1000”，第二个文件的内容是”1000,1000”，第三个文件的内容是“2000,1000”，第四个文件的内容是“3000,1000”，以此类推。如果用Halton序列算法生成一万个样本点，那么，第一个Map任务生成的点的序号是从0到999，第二个Map任务生成的点的序号是从1000到1999，第三个Map任务生成的点的序号是从2000到2999，以此类推。Halton序列算法生成随机点的的唯一参数是序号。

3)PiEstimator运行MapReduce任务。

4)PiEstimator从MapReduce的输出目录读取两个整数，它们分别是直角扇形内的点的数量和直角扇形外的点的数量。

5)根据4)的结果数值，计算Pi值，然后返回。

PiEstimator.java文件的对应PiEstimator类。PiEstimator类有三个内部类，分别是HalthonSequence类，PiMapper类，PiReducer类。HalthonSequence类负责产生样本点，PiMapper类是Map过程，PiReducer类是Reduce过程。