Hadoop的文件系统介绍

HDFS 基本介绍

前言

Hadoop内部组成
	HDFS:		海量数据的存储
	MapReduce:	海量数据的离线计算
	Yarn:		集群资源调度

1. 什么是HDFS?
H: Hadoop;
D: Distribute 分布式;
F: File 文件;
S: Systerm 系统;

HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。

	Hadoop 分布式文件系统图解

在这里插入图片描述

2. HDFS主要作用

存储海量数据
为什么能存储海量数据???
		因为其空间大,空间大的原因为服务器多、磁盘多。且支持扩展
		
		组成部分:
	管理者(Master):	NameNode,  集群中有1-2个,用于管理集群中的工作者
	工作者(Slave):	DataNode,	集群中有多个,真正存储和计算数据组件
	辅助管理:		SecondaryNameNode,  辅助管理者工作

3.HDFS存储数据的方式

以数据块的方式存储数据。默认一个数据块128M,该数值可以修改。
注意:这里的128仅仅是切分数据的阈值。
一个大的数据被切分成多个小的128M的数据块,分别存储在集群多个节点的不同位置。
数据副本机制
数据副本默认是3份。
一个数据存储到HDFS后,数据自动复制两份,共三份(三分相同的数据-数据冗余)
数据副本存放机制
第一个副本在客户端所在的节点(客户端也是集群内的节点),若客户端在集群外,那么根据s一定的计算规则选一个节点。
第二份副本,在与第一份相同机柜,且不在同一个服务器的节点上。
第三份与第一份第二份不在同一个机柜,且逻辑距离(网络拓扑)最近的机柜选择一个节点存储。

什么是名字空间?
名字空间:HDFS文件系统的目录树
通俗的说就是:把装文件路径的空间(或者说是文件夹)命为名字空间

NameNode的作用
1、 维护目录树,维护命名空间。
2、 负责确定指定的文件块到具体的Datanode结点的映射关系。(在客户端与Datanode之间共享数据)
3、管理Datanode结点的状态报告

DataNode的作用
1、 负责管理它所在结点上存储的数据的读写,及存储数据。
2、 向Namenode结点报告DataNode节点的状态。
3、 通过流水线复制实现三份数据副本,

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值