Hadoop详解

最新推荐文章于 2022-06-18 23:37:59 发布

[F.]

最新推荐文章于 2022-06-18 23:37:59 发布

阅读量255

点赞数 1

本文链接：https://blog.csdn.net/qq_42681144/article/details/92073337

版权

Linux 同时被 3 个专栏收录

7 篇文章 0 订阅

订阅专栏

hdfs

3 篇文章 0 订阅

订阅专栏

Hadoop

1 篇文章 0 订阅

订阅专栏

一.Hadoop简介：

Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构，它可以使用户在不了解分布式底层细节的情況下开发分布式程序，充分利用集群的威力进行高速运算和存储。

从其定义就可以发现，它解決了两大问题：大数据存储、大数据分析。也就是 Hadoop 的两大核心：HDFS 和 MapReduce。

1.HDFS(Hadoop Distributed File System)是可扩展、容错、高性能的分布式文件系统，异步复制，一次写入多次读取，主要负责存储。
2.MapReduce 为分布式计算框架，包含map(映射)和 reduce(归约)过程，负责在 HDFS 上进行计算。

二.HDFS介绍：（以下为概念，若还是懵逼，请看下面的图形介绍）
1.什么是HDFS：（主从架构）
HDFS(Hadoop Distributed File System)是可扩展、容错、高性能的分布式文件系统，异步复制，一次写入多次读取，主要负责存储。

HDFS组成：NameNode,DataNode,Secondary Namenode

2.NameNode:（主）

NameNode在一个集群里只有一个，
1.负责管理元数据信息
2.维护文件到块的对应关系和块到节点的映射
3.维护对文件的操作
注：是HDFS的核心，会获取fsimage和edit log文件，返回整个文件系统的快照，
只有通过namenode才能管理datanode

3.DataNode:(从)

DataNode可有有多个
1.负责响应HDFS客户端对文件的读写操作
2.定时向NameNode汇报心跳信息
3.定时向NameNode汇报数据块信息
4.定时向NameNode汇报缓存数据块信息
5.以数据块的形式储存HDFS文件，在hadoop1.0和单机模式中为64M，在hadoop2.0和为分布式中为128M

4.Secondary NameNode:

不是NameNode的副本。主要用于定时获取内存中的fsimage和edit log文件，并将它们合并，返回一个最新的文件系统快照

上图：
在这里插入图片描述
三.MapReduce:=>(主从架构)
1.MapReduce运行步骤：（以单词计数为列）

1.读取文件数据，一行一行的读取，且对应为key=>value的形式，为input
2.得到数据进行切分，且分为每个单元，为split，
在进行 Map 阶段之前，MapReduce 框架会根据输入文件计算输入分片，简单来说就是进行分块操作，一个块最多128M，若超出，则分为两个块，一个块对应一个map。
3.进行map映射，计算每个单词出现次数
4.洗牌，
步骤：分区，排序，合并
将相同的单词放在一个集合里，叫shuffle
5.进行Reduce，输出。
6.输出结果，为一个文件

上图：在这里插入图片描述
流程图：

四.资源管理YARN：

Yarn的出现：在MapReduce2.0之后，我们就开始使用yarn来承载MapReduce了，为什么会这样呢？是因为MapReduce分为主从架构，在2.0之前，有JobTracker和TaskTracker，此时的JobTracker用来做资源管理和计算管理，这就造成了一个问题，即权限过大，且只能运行MapReduce任务。而yarn的出现，用作资源管理和任务分配，拿走JobTracker的部分权限。

[F.]

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop详解

一.Hadoop简介：Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构，它可以使用户在不了解分布式底层细节的情況下开发分布式程序，充分利用集群的威力进行高速运算和存储。从其定义就可以发现，它解決了两大问题：大数据存储、大数据分析。也就是 Hadoop 的两大核心：HDFS 和 MapReduce。1.HDFS(Hadoop Distributed File S...
复制链接

扫一扫

专栏目录