Hadoop学习笔记 - Sort / TeraSort / TestDFSIO

最新推荐文章于 2024-07-25 11:42:13 发布

彩色蚂蚁

最新推荐文章于 2024-07-25 11:42:13 发布

阅读量1w

点赞数

文章标签： hadoop mapreduce class 框架测试任务

本文链接：https://blog.csdn.net/colorant/article/details/7852402

版权

Hadoop Examples学习笔记

作者：刘旭晖Raymond转载请注明出处

Email：colorant@163.com

BLOG：http://blog.csdn.net/colorant/

记录一下这几天学习Hadoop的几个测试用例的理解。主要是三个Sort/TeraSort/TestDFSIO, 这几个example一方面可以用来做benchmark，另一方面通过学习阅读，也有助于理解Hadoop的MR框架；）

Sort : org.apache.hadoop.examples.Sort

功能目的

Sort的功能就是对输入文件按Key进行排序。默认处理格式为<text,text> pair的Sequence File。

流程分析

如果不考虑全排序功能的话，Sort本身的实现是相当简单的，Map和Reduce阶段都采用Hadoop自带的IdentityMapper/Reducer，即不对数据做任何处理，直接输出。完全利用Hadoop Framework在Map的output阶段和Reduce阶段的排序功能对key值进行排序

相关思考

如果不使用TotalOrder，Sort的输出结果中，每个Reduce Task的输出是局部排序的，但是各个Reduce Task的输出结果之间是没有经过全局排序过的。这是因为在partition阶段对<K，V>只是简单的按key的hash结果来分配数据。

TeraSort: org.apache.hadoop.examples.terasort.TeraSort

功能目的

对输入文件按Key进行全局排序。另外TeraSort针对的是大批量的数据，在实现过程中为了保证Reduce阶段各个Reduce Job的负载平衡，以保证全局运算的速度，TeraSort对数据进行了预采样分析。

流程分析

从job框架上看，为了保证Reduce阶段的负载平衡，使用jobConf.setPartitionerClass自定义了Partitioner Class用来对数据进行分区，在map和reduce阶段对数据不做额外处理。Job流程如下：

• 对数据进行分段采样：例如将输入文件最多分割为10段，每段读取最多100,000行数据作为样本，统计各个Key值出现的频率并对Key值使用内建的QuickSort进行快速排序（这一步是JobClient在单个节点上执行的，采样的运算量不能太大）

• 将样本统计结果中位于样本统计平均分段处的Key值（例如n/10处 n=[1..10]）做为分区的依据以DistributedCache的方式写入文件，这样在MapReduce阶段的各个节点都能够Access这个文件。如果全局数据的Key值分布与样本类似的话，这也就代表了全局数据的平均分区的位置。（所以采样的数量也不能太小）

• 在MapReduceJob执行过程中，自定义的Partitioner会读取这个样本统计文件，根据分区边界Key值创建一个两级的索引树用来快速定位特定Key值对应的分区（这个两级索引树是根据TeraSort规定的输入数据的特点定制的，对普通数据不一定具有普遍适用性，比如Hadoop内置的TotalPartitioner就采用了更通用的二分查找法来定位分区）

相关思考

由于Partitioner中将数据按Key值大小归类到不同的分区中，而各个分区内部由Hadoop的框架进行了排序，所以最终得到的结果就是全局排序的结果了

前面Sort.java在做全局排序的时候也使用了类似的方法，不同的是采样和分区定位的方式不同，实现的方式更加通用一些。

为了加快TeraSort数据输出的速度，这个Job的data replica被设置为1

另外，http://blog.csdn.net/leafy1980/article/details/6633828 这里对TeraSort做了更详细的流程介绍

TestDFSIO : org.apache.hadoop.fs.TestDFSIO

功能目的

测试 HDFS的读写速度

流程分析

使用Hadoop MapReduce框架的主要目的是通过多个Map Task模拟多路的并发读写。

TestDFSIO通过实现了自己的Mapper class用来读写数据，生成统计信息，然后实现了自己的Reduce Class来收集并汇总各个Map Task的统计信息，主要涉及到三个文件 : AccumulatingReducer.java, IOMapperBase.java, TestDFSIO.java

程序的大致流程如下：

• 根据Map Task的数量将相应个数的Control控制文件写入HDFS，这些控制文件仅包含一行内容：<数据文件名，数据文件大小>

• 启动MapReduceJob，IOMapperBase Class中的Map方法将Control文件作为输入文件，读取内容，将数据文件名和大小作为参数传递给自定义的doIO函数，进行实际的数据读写工作。而后将数据大小和doIO执行的时间传递给自定义的collectStatus函数，进行统计数据的输出工作

• doIO的实现：TestDFSIO重载并实现doIO函数，将指定大小的数据写入HDFS文件系统。

• collectStatus的实现：TestDFSIO重载并实现collectStatus函数，将任务数量（1），以及数据大小，完成时间等相关数据作为Map Class的结果输出