BigDataBench_V4.0_Hadoop的安装与运行

小张哥最近在学习Hadoop以及相应的Benchmark的相关的内容,

分享一下学习经历

1.何为Hadoop

 Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。

90%的世界数据在过去的几年中产生”。

由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式,它可以填补整个足球场。在2011年创建相同数据量只需要两天,在2013年该速率仍在每十分钟极大地增长。虽然生产的所有这些信息是有意义的,处理起来有用的,但是它被忽略了。

对于大数据解决方案

传统的企业方法

在这种方法中,一个企业将有一个计算机存储和处理大数据。对于存储而言,程序员会自己选择的数据库厂商,如Oracle,IBM等的帮助下完成,用户交互使用应用程序进而获取并处理数据存储和分析。

Big Data Traditional Approach

局限性

这种方式能完美地处理那些可以由标准的数据库服务器来存储,或直至处理数据的处理器的限制少的大量数据应用程序。但是,当涉及到处理大量的可伸缩数据,这是一个繁忙的任务,只能通过单一的数据库瓶颈来处理这些数据。

谷歌的解决方案

使用一种称为MapReduce的算法谷歌解决了这个问题。这个算法将任务分成小份,并将它们分配到多台计算机,并且从这些机器收集结果并综合,形成了结果数据集。

Google MapReduce

Hadoop

使用谷歌提供的解决方案,Doug Cutting和他的团队开发了一个开源项目叫做HADOOP。

Hadoop使用的MapReduce算法运行,其中数据在使用其他并行处理的应用程序。总之,Hadoop用于开发可以执行完整的统计分析大数据的应用程序。

Hadoop Framework

 

hadoop教程:

https://www.yiibai.com/hadoop

http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html

https://www.w3cschool.cn/hadoop/

2.BigDataBench

http://prof.ict.ac.cn/

As architecture, system, data management, and machine learning communities pay greater attention to innovative big data and data-driven artificial intelligence (in short, AI) algorithms, architecture, and systems, the pressure of benchmarking rises. However, complexity, diversity, frequently changed workloads, and rapid evolution of big data, especially AI systems raise great challenges in benchmarking. First, for the sake of conciseness, benchmarking scalability, portability cost, reproducibility, and better interpretation of performance data, we need understand what are the most time-consuming classes of unit of computation among big data and AI workloads. Second, for the sake of fairness, the benchmarks must include diversity of data and workloads. Third, for co-design of software and hardware, the benchmarks should be consistent across different communities.

3.安装步骤

注意一下哈,直接跑脚本中会遇到找不到hadoop、$BigdataBench_HOME等问题

需要source两个文件

source /etc/profile

source  项目根目录下的conf.properties文件

1).先安装好hadoop

2).将BigDataBench_V4.0_Hadoop包考到Ubuntu目录下(centos类似)

 

配置conf.properties文件

配好那几个HOME

(注意一下,源码有问题,后面有用到BigdataBench_HOME时,大小写有问题,导致无法跑成功,但是

不要害怕,会在后面提到)

现在,跑相应的样例,进入下图目录

就是要跑上面那几个蓝色的家伙,七个蓝精灵???

先进入FFT

先跑genData_FFT.sh,

内容如下

下面内容会出问题(有可能不会)

为啥呢?????

因为hadoop的文件目录下还没有/hadoop目录,所以直接创建不行

那咋办???

上面是小张哥的Hadoop的bin目录下

用Hadoop 的shell命令

./hadoop dfs -ls /

之前已经先建立了/hadoop目录,

具体命令可参考

那跑一个

但是凉了,看一下啊,是环境变量出了问题

重跑一下

成功了

再跑run_FFT.sh

结果到哪找?

然后进入Grep

genData_Grep.sh长这样

小张哥在这里踩了个坑

就是这个gen_text_data.sh 

把sh改成bash就行

因为sh解析不了let命令

再进入MD5

改一下gen那个文件

cd ../../../BigDataGeneratorSuite/Text_datagen/
 

然后跑run文件,有可能抛异常,是hadoop的用户权限的问题

这个地方有点问题,我改了一下脚本

先手动拷贝,然后注释掉了

 

进入Matrix

这个需要安装mahout,见小张哥的另一篇博客

安好后改一下两个脚本

genData_Matrix.sh

run_Matrix.sh

 

结果如下

其他的或多或少要修改一下脚本,原因是路径不规范,但都不难,根据报错修改就行。

列出改后的脚本

RandSample 下的

genData_randSample.sh

 

 觉得有帮助就点个赞吧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值