Hadoop的一些基本知识

Hadoop 简介

Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。作者Doug Cutting 受Google三篇论文的启发,开发了hadoop。

Hadoop 组件

hadoop是一个统称,目前hadoop主要包含三大组件

  • hdfs:是一个分布式存储框架,适合海量数据存储
  • mapreduce:是一个分布式计算框架,适合海量数据计算
  • yarn:是一个资源调度平台,负责给计算框架分配计算资源
    在这里插入图片描述

下载

目前,hadoop已经演变为大数据计算的代名词,形成了一套完善的大数据计算的生态系统,所以针对hadoop也出现了很多版本。下载链接[Hadoop(http://hadoop.apache.org/releases.html).

分布式存储介绍

  • 在分布式存储系统中,分散在不同节点中的数据可能属于同一个文件。
  • 为了组织众多的文件,把文件可以放到不同的文件夹中,文件夹可以一级一级的包含。
    -集群中不同的节点承担不同的职责。

分布式计算

主从结构:主节点,只有一个: MRAppMaster。从节点,就是具体的task
MRAppMaster负责
1.接收客户端提交的计算任务
2.把计算任务分给NodeManager的Container中执行,即任务调度。

资源的调度

yarn:主从结构 主节点,最多可以有2个:ResourceManager ;从节点,有很多个: NodeManager。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值