Hadoop详解

3 篇文章 0 订阅
1 篇文章 0 订阅

一.Hadoop简介:

Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储。

从其定义就可以发现,它解決了两大问题:大数据存储、大数据分析。也就是 Hadoop 的两大核心:HDFS 和 MapReduce。

1.HDFS(Hadoop Distributed File System)是可扩展、容错、高性能的分布式文件系统,异步复制,一次写入多次读取,主要负责存储。
2.MapReduce 为分布式计算框架,包含map(映射)和 reduce(归约)过程,负责在 HDFS 上进行计算。

二.HDFS介绍:(以下为概念,若还是懵逼,请看下面的图形介绍)
1.什么是HDFS:(主从架构)
HDFS(Hadoop Distributed File System)是可扩展、容错、高性能的分布式文件系统,异步复制,一次写入多次读取,主要负责存储。

HDFS组成:NameNode,DataNode,Secondary Namenode

2.NameNode:(主)

NameNode在一个集群里只有一个,
1.负责管理元数据信息
2.维护文件到块的对应关系和块到节点的映射
3.维护对文件的操作
注:是HDFS的核心,会获取fsimage和edit log文件,返回整个文件系统的快照,
只有通过namenode才能管理datanode

3.DataNode:(从)

DataNode可有有多个
1.负责响应HDFS客户端对文件的读写操作
2.定时向NameNode汇报心跳信息
3.定时向NameNode汇报数据块信息
4.定时向NameNode汇报缓存数据块信息
5.以数据块的形式储存HDFS文件,在hadoop1.0和单机模式中为64M,在hadoop2.0和为分布式中为128M

4.Secondary NameNode:

不是NameNode的副本。主要用于定时获取内存中的fsimage和edit log文件,并将它们合并,返回一个最新的文件系统快照

上图:
在这里插入图片描述
三.MapReduce:=>(主从架构)
1.MapReduce运行步骤:(以单词计数为列)

1.读取文件数据,一行一行的读取,且对应为key=>value的形式,为input
2.得到数据进行切分,且分为每个单元,为split,
在进行 Map 阶段之前,MapReduce 框架会根据输入文件计算输入分片,简单来说就是进行分块操作,一个块最多128M,若超出,则分为两个块,一个块对应一个map。
3.进行map映射,计算每个单词出现次数
4.洗牌,
步骤:分区,排序,合并
将相同的单词放在一个集合里,叫shuffle
5.进行Reduce,输出。
6.输出结果,为一个文件

上图:在这里插入图片描述
流程图:
在这里插入图片描述

四.资源管理YARN:

Yarn的出现:在MapReduce2.0之后,我们就开始使用yarn来承载MapReduce了,为什么会这样呢?是因为MapReduce分为主从架构,在2.0之前,有JobTracker和TaskTracker,此时的JobTracker用来做资源管理和计算管理,这就造成了一个问题,即权限过大,且只能运行MapReduce任务。而yarn的出现,用作资源管理和任务分配,拿走JobTracker的部分权限。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值