CDH性能测试之HiBench
在大数据领域,集群的性能主要是整体的网络和数据吞吐量决定的。使用Hibench测试时,使用传统电口千兆网络的任务,运行时间比光网任务慢10s左右。Hibench是用来衡量CDH性能的基准测试集,包含:文件系统IO性能,系统的批处理吞吐,数据仓库OLAP分析算子,机器学习的处理能力,以及流处理系统的能力。
HiBench简介
Hibench是Intel推出的大数据基准测试工具,提供对hive(aggregation,scan,join),排序(sort,TERASort),大数据基本算法(wordcount,pagerank,nutchindex),机器学习算法(kmeans,bayes),集群调度(sleep),吞吐(dfsio)。
一个完整的TeraSort测试需要按以下三步执行:
用TeraGen生成随机数据
对输入数据运行TeraSort
用TeraValidate验证排好序的输出数据
所有hibench测试基本都是这样的流程,生成数据,运行,输出结果。