Hibench 中sparkbench 安装及使用

概述:

Hibench 是 Intel 开源的大数据基准测试工具,可以评估不同大数据框架的速度,吞吐量和系统资源利用率。包括 Sort, WordCount, TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight 和 enhanced DFSIO等,还支持流任务的基准测试,例如 Spark Streaming, Flink, Storm 和 Gearpump。

它支持的框架有:hadoopbench、sparkbench、stormbench、flinkbench、gearpumpbench。

环境准备:

HiBench需要java环境,以及Maven管理。

安装java运行环境以及maven,添加环境变量(此处简单那省略。。。)

下载HiBench:

Github地址:https://github.com/intel-hadoop/HiBench

注意事项:1、Python 2.x(>=2.6) is required.
                 2、bc is required to generate the HiBench report.(如没有bc工具,执行yum install bc)
                 3、Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP
                 4、Build HiBench according to build HiBench.
                 5、Start HDFS, Yarn in the cluster.

git clone https://github.com/intel-hadoop/HiBench.git比较慢,建议直接网页下载zip包,然后解压到理想的目录下。

安装Hibench:

进入到Hibench目录下执行编译操作:

以安装hadoop框架下用于测试sql的模块为例:

mvn -Phadoopbench -Dmodules -Psql -Dscala=2.11 clean package 
或者直接执行

mvn clean package
更多安装命令可见https://github.com/intel-hadoop/HiBench/blob/master/docs/build-hibench.md。

(我这边因为使用的是sparkbench框架,所以选择第二种,在编译是老是会出现问题,多编译几次就好了,直到显示成功)

 安装 bc 用于生成 report 信息:

      yum install bc

配置Hibench:

1.配置conf/spark.conf

2.配置conf/hadoop.conf

3.配置conf/hibench.conf 

4.自定义数据量大小:

/home/hadoop/package/HiBench/conf/workloads/micro/terasort.conf

 

运行测试:

1.生成数据

bin/workloads/micro/terasort/prepare/prepare.sh

 2.处理数据:

bin/workloads/micro/terasort/spark/run.sh

 查看数据:

至此,就全部完成,踩踩坑:

1.尽量在一个用户下进行操作

2.在编译期间会报很多问题,尽量保持耐心,多编译几次就会成功

3.在配置参数时注意虚拟机内存的大小

 

 

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值