Hadoop常用测试集HiBench配置指南

最新推荐文章于 2024-10-11 07:42:06 发布

胖豆儿

最新推荐文章于 2024-10-11 07:42:06 发布

阅读量4.2k

点赞数 4

分类专栏：测试工具文章标签： hiBench

本文链接：https://blog.csdn.net/jbb_123/article/details/85050028

版权

Hibench是一个大数据 benchmark 套件，用来测试各种大数据框架的速度，吞吐量，系统资源利用率。
它支持的框架有：hadoopbench、sparkbench、stormbench、flinkbench、gearpumpbench。

hibench作为一个测试hadoop的基准测试框架，提供了对于hive：（aggregation，scan，join），排序（sort，TeraSort），大数据基本算法（wordcount，pagerank，nutchindex），机器学习算法（kmeans，bayes），集群调度（sleep），吞吐（dfsio），以及新加入5.0版本的流测试，是一个测试大数据平台非常好用的工具

它支持的框架有：hadoopbench、sparkbench、stormbench、flinkbench、gearpumpbench。

hibench包含几个hadoop的负载
 
micro benchmarks
Sort:使用hadoop randomtextwriter生成数据，并对数据进行排序。 
Wordcount:统计输入数据中每个单词的出现次数，输入数据使用hadoop randomtextwriter生成。 
TeraSort：输入数据由hadoop teragen产生，通过key值进行排序。
 
hdfs benchmarks
增强行的dfsio：通过产生大量同时执行读写请求的任务测试hadoop机群的hdfs吞吐量
 
web search bench marks
Nutch indexing:大规模收索引擎，这个是负载测试nutch（apache的一个开源搜索引擎）的搜索子系统，使用自动生成的web数据，web数据中的连接和单词符合zipfian分布（一个单词出现的次数与它在频率表的排名成反比） 
Pagerank:这个负载包含在一种在hadoop上的pagerank的算法实现，使用自动生成的web数据，web数据中的链接符合zipfian分布。（对于任意一个term其频度（frequency）的排名（rank）和frequency的乘积大致是一个常数）
 
machine learning benchmarks
Mahout bayesian classification(bayes):大规模机器学习，这个负载测试mahout（apache开源机器学习库）中的naive bayesian 训练器，输入的数据是自动生成的文档，文档中的单词符合zipfian分布。 
Mahout k-means clustering(kmeans):测试mahout中的k-means聚类算法，输入的数据集由基于平均分布和高斯分布的genkmeansdataset产生。
 
data analytics benchmarks
Hive query benchmarks(hivebench):包含执行的典型olap查询的hive查询（aggregation和join），使用自动生成的web数据，web数据的链接符合zipfian分布。

参考网址：

https://github.com/intel-hadoop/HiBench
https://github.com/intel-hadoop/HiBench/blob/master/docs/build-hibench.md
https://github.com/intel-hadoop/HiBench/blob/master/docs/run-hadoopbench.md

一个完整的TeraSort