什么是hadoop?

大数据

  要想明白Hadoop是什么,首先要对大数据有简单的了解。从字面上来看,大数据就指大量的数据,这个量大到在一台计算机中无法完成所要求的处理。那怎么办呢,很简单,一台不行的话,多搞几台一起处理不就行了。但是这样又产生了新的问题:如何组织各个计算机的工作、如何存储数据、如何管理各个计算机的资源。这三个问题就是大数据研究的主要问题,也是Hadoop所要解决的问题。

Hadoop概述

  总的来说,Hadoop是一个用于处理大数据的平台,可以实现对海量数据的分布式处理,要想理解hadoop到底是什么,首先让我们来看一看apache官方是如何解释的:

  The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

  • 第一句首先说明了hadoop是一个框架,这个框架的作用是实现使集群中的各个节点(计算机)使用相同的编程模型分布式地处理大型数据集。“相同的编程模型”可以狭义的理解为一个普通的程序,“各个节点使用相同的编程模型”就是将该程序分配到集群中的各个节点中,各个节点都是用这一程序处理各自的负责的数据。
  • 第二句说明了hadoop的目的是扩大服务器的规模,将单一的服务器处理扩大为成千上万台机器共同处理,每一台机器都提供一定的存储资源和计算资源,从而能够满足大数据处理的需求。
  • 之后还说明了hadoop保证分布式集群的可行性,也就是保证集群不出现错误。

Hadoop 组成模块

Hadoop是由四大模块组成的,可以结合大数据的三大问题理解:

  • HDFS(Hadoop Distributed File System) :从名称上就可以看出,HDFS是Hadoop中的分布式文件系统,负责分布式数据的存储
  • YARN :YARN是Hadoop中负责资源管理的模块,负责为各个节点分发任务及管理节点的资源(cpu资源和存储资源)。
  • MapReduce :该模块是以YARN系统为基础的,可以理解为YARN中分发的任务,它负责对大型数据集的并发数据处理
  • Hadoop Common : 这个模块是一个公用工具集,为上三个模块提供支持。

hadoop组成模块

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值