测试眼里的Hadoop系列之Terasort

最新推荐文章于 2024-08-22 10:09:13 发布

leafy1980

最新推荐文章于 2024-08-22 10:09:13 发布

阅读量1.5w

点赞数 3

分类专栏： Hadoop测试文章标签： hadoop 测试作业 mapreduce 工具 merge

本文链接：https://blog.csdn.net/leafy1980/article/details/6633828

版权

本文深入探讨了Hadoop中的TeraSort工具，从Sort Benchmark背景到TeraSort的工作原理，包括输入数据TeraGen的生成、TeraSort的MapReduce过程，以及结果验证TeraValidate。通过TeraSort，可以进行Hadoop的正确性和性能测试。

摘要由CSDN通过智能技术生成

TeraSort是Hadoop的测试中很有用的一个工具，但以前只是粗略的知道它的功能和用法，简单的用它做了几个测试用例。实际上，对于这种比较通用的工具，如果能够了解它更多一些的话，对于理解Hadoop是很有帮助的，同时也可以更好的利用它来帮助测试。最近有点时间，就了解了一些它的背景，代码实现原理等等，就先记录下来吧。

1. Hadoop与Sort Benchmarks

SortBenchmark(http://sortbenchmark.org/ )是JimGray自98年建立的一项排序竞技活动，它制定了不同类别的排序项目和场景，每年一次，决出各项排序算法实现的第一名(看介绍是在每年的ACM SIGMOD颁发奖牌哦)。

Hadoop在2008年以209秒的成绩获得年度TeraSort项(Dotona类)的第一名；而此前这一项排序的记录是297秒。

从SortBenchmark网站上可以了解到，Hadoop到今天仍然保持了Minute项Daytona类型排序的冠军。Minute项排序是通过评判在60秒或小于60秒内能够排序的最大数据量来决定胜负的；其实等同于之前的TeraSort(TeraSort的评判标准是对1T数据排序的时间)。

Hadoop源代码中包含了TeraSort，打包在examples包（如：hadoop-0.20.2-examples.jar）。

2. 输入数据：TeraGen

SortBenchmark对排序的输入数据制定了详细规则，要求使用其提供的gensort工具(http://www.ordinal.com/gensort.html )生成输入数据。Hadoop的TeraSort也用Java实现了一个生成数据工具TeraGen，算法与gensort一致。

对输入数据的基础要求是：输入文件是由一行行100字节的记录组成，每行记录包括一个10字节的Key；以Key来对记录排序。

Minute项排序允许输入文件可以是多个文件，但Key的每个字节要求是binary编码而不是ASCII编码，也就是每个字符可能有256种可能，也就是说每条记录，有2的80次方种可能的Key；

同时Daytona类别则要求排序程序不仅是为10字节长Key、100字节长记录排序设计的，还可以支持对其他长度的Key或行记录进行排序；也就是说这个排序程序是通用的。

在hadoop里，利用TeraGen生成排序输入数据的命令格式是这样的：

$ bin/hadoop jar hadoop-0.19.2-examples.jar teragen 10000000000 /terasort/input1TB

注意，teragen后的数值单位是行数；因为每行100个字节，所以如果要产生1T的数据量，则这个数值应为1T/100=10000000000(10个0)。

最低0.47元/天解锁文章

leafy1980

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

测试眼里的Hadoop系列 之Terasort

1. Hadoop与Sort Benchmarks

2. 输入数据：TeraGen

测试眼里的Hadoop系列之Terasort