什么是hadoop？

最新推荐文章于 2023-02-05 18:11:13 发布

daydreamer~~

最新推荐文章于 2023-02-05 18:11:13 发布

阅读量282

点赞数

分类专栏： Hadoop 文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/HuoRan0614/article/details/86586297

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

大数据

要想明白Hadoop是什么，首先要对大数据有简单的了解。从字面上来看，大数据就指大量的数据，这个量大到在一台计算机中无法完成所要求的处理。那怎么办呢，很简单，一台不行的话，多搞几台一起处理不就行了。但是这样又产生了新的问题：如何组织各个计算机的工作、如何存储数据、如何管理各个计算机的资源。这三个问题就是大数据研究的主要问题，也是Hadoop所要解决的问题。

Hadoop概述

总的来说，Hadoop是一个用于处理大数据的平台，可以实现对海量数据的分布式处理，要想理解hadoop到底是什么，首先让我们来看一看apache官方是如何解释的：

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

第一句首先说明了hadoop是一个框架，这个框架的作用是实现使集群中的各个节点（计算机）使用相同的编程模型分布式地处理大型数据集。“相同的编程模型”可以狭义的理解为一个普通的程序，“各个节点使用相同的编程模型”就是将该程序分配到集群中的各个节点中，各个节点都是用这一程序处理各自的负责的数据。
第二句说明了hadoop的目的是扩大服务器的规模，将单一的服务器处理扩大为成千上万台机器共同处理，每一台机器都提供一定的存储资源和计算资源，从而能够满足大数据处理的需求。
之后还说明了hadoop保证分布式集群的可行性，也就是保证集群不出现错误。

Hadoop 组成模块

Hadoop是由四大模块组成的，可以结合大数据的三大问题理解：

HDFS(Hadoop Distributed File System) ：从名称上就可以看出，HDFS是Hadoop中的分布式文件系统，负责分布式数据的存储。
YARN ：YARN是Hadoop中负责资源管理的模块，负责为各个节点分发任务及管理节点的资源（cpu资源和存储资源）。
MapReduce ：该模块是以YARN系统为基础的，可以理解为YARN中分发的任务，它负责对大型数据集的并发数据处理。
Hadoop Common ：这个模块是一个公用工具集，为上三个模块提供支持。

hadoop组成模块