HiBench生成基准数据集【WordCount为例】

最新推荐文章于 2024-07-19 00:12:30 发布

Huang3stone

最新推荐文章于 2024-07-19 00:12:30 发布

阅读量994

点赞数 1

分类专栏：大数据文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/lafsca5/article/details/125724890

版权

大数据专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.下载HiBench
官网地址：https://github.com/Intel-bigdata/HiBench/tree/HiBench-7.1

在这里插入图片描述
2.上传服务器
过程略
3.解压文件
由于压缩包是.zip文件，无法使用tar解压，需要下载unzip

yum install unzip

unzip xxx.zip

4.修改配置文件

cp hadoop.conf.template hadoop.conf

修改 hadoop.conf（根据自己节点情况配置）

# Hadoop home
hibench.hadoop.home     /usr/local/hadoop-3.1.1

# The path of hadoop executable
hibench.hadoop.executable     ${hibench.hadoop.home}/bin/hadoop

# Hadoop configraution directory
hibench.hadoop.configure.dir  ${hibench.hadoop.home}/etc/hadoop

# The root HDFS path to store HiBench data
hibench.hdfs.master       hdfs://192.168.152.109:9820/hibench


# Hadoop release provider. Supported value: apache, cdh5, hdp
hibench.hadoop.release    apache
~

进入conf/workloads/micro/,wordcount.conf文件配置的是生成的数据量大小

这里我自定义了一个1G大小的数据集


#datagen
#hibench.wordcount.tiny.datasize                 32000
#hibench.wordcount.small.datasize                320000000
#hibench.wordcount.large.datasize                3200000000
#hibench.wordcount.huge.datasize                 32000000000
#hibench.wordcount.gigantic.datasize             320000000000
#hibench.wordcount.bigdata.datasize              1600000000000

hibench.wordcount.large.datasize                1073741824


hibench.workload.datasize               ${hibench.wordcount.${hibench.scale.profile}.datasize}

# export for shell script
hibench.workload.input                  ${hibench.hdfs.data.dir}/Wordcount/Input
hibench.workload.output                 ${hibench.hdfs.data.dir}/Wordcount/Output