BigDataBench_V4.0_Hadoop的安装与运行

最新推荐文章于 2022-11-19 17:25:17 发布

可可西里海盗

最新推荐文章于 2022-11-19 17:25:17 发布

阅读量1k

点赞数 2

分类专栏： Hadoop bechmark 文章标签： Hadoop BigDataBench_V4.0_Hadoop

本文链接：https://blog.csdn.net/daixiaoma/article/details/83512672

版权

Hadoop 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

bechmark

2 篇文章 0 订阅

订阅专栏

小张哥最近在学习Hadoop以及相应的Benchmark的相关的内容，

分享一下学习经历

1.何为Hadoop

Hadoop是一个开源框架，它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展，每一个台机都可以提供本地计算和存储。

“90％的世界数据在过去的几年中产生”。

由于新技术，设备和类似的社交网站通信装置的出现，人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式，它可以填补整个足球场。在2011年创建相同数据量只需要两天，在2013年该速率仍在每十分钟极大地增长。虽然生产的所有这些信息是有意义的，处理起来有用的，但是它被忽略了。

对于大数据解决方案

传统的企业方法

在这种方法中，一个企业将有一个计算机存储和处理大数据。对于存储而言，程序员会自己选择的数据库厂商，如Oracle，IBM等的帮助下完成，用户交互使用应用程序进而获取并处理数据存储和分析。

Big Data Traditional Approach

局限性

这种方式能完美地处理那些可以由标准的数据库服务器来存储，或直至处理数据的处理器的限制少的大量数据应用程序。但是，当涉及到处理大量的可伸缩数据，这是一个繁忙的任务，只能通过单一的数据库瓶颈来处理这些数据。

谷歌的解决方案

使用一种称为MapReduce的算法谷歌解决了这个问题。这个算法将任务分成小份，并将它们分配到多台计算机，并且从这些机器收集结果并综合，形成了结果数据集。

Google MapReduce

Hadoop

使用谷歌提供的解决方案，Doug Cutting和他的团队开发了一个开源项目叫做HADOOP。

Hadoop使用的MapReduce算法运行，其中数据在使用其他并行处理的应用程序。总之，Hadoop用于开发可以执行完整的统计分析大数据的应用程序。

Hadoop Framework

hadoop教程：

https://www.yiibai.com/hadoop

http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html

https://www.w3cschool.cn/hadoop/

2.BigDataBench

http://prof.ict.ac.cn/

As architecture, system, data management, and machine learning communities pay greater attention to innovative big data and data-driven artificial intelligence (in short, AI) algorithms, architecture, and systems, the pressure of benchmarking rises. However, complexity, diversity, frequently changed workloads, and rapid evolution of big data, especially AI systems raise great challenges in benchmarking. First, for the sake of conciseness, benchmarking scalability, portability cost, reproducibility, and better interpretation of performance data, we need understand what are the most time-consuming classes of unit of computation among big data and AI workloads. Second, for the sake of fairness, the benchmarks must include diversity of data and workloads. Third, for co-design of software and hardware, the benchmarks should be consistent across different communities.

3.安装步骤

注意一下哈，直接跑脚本中会遇到找不到hadoop、$BigdataBench_HOME等问题

需要source两个文件

source /etc/profile

source 项目根目录下的conf.properties文件

1）.先安装好hadoop

2).将BigDataBench_V4.0_Hadoop包考到Ubuntu目录下（centos类似）