Hadoop的文件系统介绍

最新推荐文章于 2024-06-11 23:22:17 发布

ℒℴvℯ念心꧔ꦿ࿐

最新推荐文章于 2024-06-11 23:22:17 发布

阅读量1.6k

点赞数

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/chen2614/article/details/108966182

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

HDFS 基本介绍

前言

Hadoop内部组成
	HDFS:		海量数据的存储
	MapReduce:	海量数据的离线计算
	Yarn:		集群资源调度

1. 什么是HDFS？
H： Hadoop；
D： Distribute 分布式；
F： File 文件；
S： Systerm 系统；

HDFS 是 Hadoop Distribute File System 的简称，意为：Hadoop 分布式文件系统。是 Hadoop 核心组件之一，作为最底层的分布式存储服务而存在。

	Hadoop 分布式文件系统图解

在这里插入图片描述

2. HDFS主要作用

存储海量数据
为什么能存储海量数据？？？
		因为其空间大，空间大的原因为服务器多、磁盘多。且支持扩展
		
		组成部分：
	管理者(Master):	NameNode,  集群中有1-2个，用于管理集群中的工作者
	工作者(Slave):	DataNode,	集群中有多个，真正存储和计算数据组件
	辅助管理:		SecondaryNameNode,  辅助管理者工作

3.HDFS存储数据的方式

以数据块的方式存储数据。默认一个数据块128M，该数值可以修改。
注意：这里的128仅仅是切分数据的阈值。
一个大的数据被切分成多个小的128M的数据块，分别存储在集群多个节点的不同位置。
数据副本机制
数据副本默认是3份。
一个数据存储到HDFS后，数据自动复制两份，共三份（三分相同的数据-数据冗余）
数据副本存放机制
第一个副本在客户端所在的节点（客户端也是集群内的节点），若客户端在集群外，那么根据s一定的计算规则选一个节点。
第二份副本，在与第一份相同机柜，且不在同一个服务器的节点上。
第三份与第一份第二份不在同一个机柜，且逻辑距离（网络拓扑）最近的机柜选择一个节点存储。

什么是名字空间？
名字空间：HDFS文件系统的目录树
通俗的说就是：把装文件路径的空间（或者说是文件夹）命为名字空间

NameNode的作用
1、维护目录树，维护命名空间。
2、负责确定指定的文件块到具体的Datanode结点的映射关系。（在客户端与Datanode之间共享数据）
3、管理Datanode结点的状态报告

DataNode的作用
1、负责管理它所在结点上存储的数据的读写，及存储数据。
2、向Namenode结点报告DataNode节点的状态。
3、通过流水线复制实现三份数据副本，

ℒℴvℯ念心꧔ꦿ࿐

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hadoop的文件系统介绍

HDFS 基本介绍前言Hadoop内部组成 HDFS: 海量数据的存储 MapReduce: 海量数据的离线计算 Yarn: 集群资源调度1. 什么是HDFS？H： Hadoop；D： Distribute 分布式；F： File 文件；S： Systerm 系统；HDFS 是 Hadoop Distribute File System 的简称，意为：Hadoop 分布式文件系统。是 Hadoop 核心组件之一，作为最底层的分布式存储服务而存在。 Hadoop 分布式文件系统图
复制链接

扫一扫

专栏目录