数据研发学习笔记4.2:大数据之分布式文件系统HDFS

1 分布式文件系统

分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群

与之前使用多个处理器和专用高级硬件的并行化处理装置不通过的是,目前的分布式文件系统所采用的计算机集群,都是由普通硬件构成,这就大大降低了硬件上的开销。
在这里插入图片描述
分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类:

  • 主节点(Master Node)或称为名称节点(NameNode);
  • 从节点(Slave Node)或称为数据节点(DataNode)
    在这里插入图片描述

2 HDFS简介

总体而言,HDFS要实现以下目标:

  • 兼容廉价的硬件设备;
  • 流数据读写;
  • 大数据集;
  • 简单的文件模型;
  • 强大的跨平台兼容性。

HDFS特殊的设计,在实现上述优良特性的同时,也使得自身具有一些应用局限性,主要包括以下几个方面:

  • 不适合低延迟数据访问;
  • 无法高效存储大量小文件;
  • 不支持多用户写入及任意修改文件。

3 HDFS相关概念

3.1 块

HDFS默认一个块64MB,一个文件被分成多个块,以块作为存储单位。

块的大小远远大于普通文件系统,可以最小化寻址开销。

HDFS采用抽象的块概念可以带来以下几个明显的好处:

  • 支持大规模文件存储。文件以块为单位进行存储,一个大规模文件可以被分拆成若干个文件块,不同的文件块可以被分发到不同的节点上,因此,一个文件的大小不会受到单个节点的存储容量的限制,可以远远大于网络中任意节点的存储容量。
  • 简化系统设计。首先,大大简化了存储管理,因为文件块大小是固定的,这样就可以很容易计算出一个节点可以存储多少文件块;其次,方便了元数据的管理,元数据不需要和文件块一起存储,可以由其他
    系统负责管理元数据。
  • 适合数据备份。每个文件块都可以冗余存储到多个节点上,大大提高了系统的容错性和可用性。

3.2 名称节点和数据节点

在这里插入图片描述
名称节点(NameNode)负责管理分布式文件系统的命名空间(Namespace),保存了两个核心的数据结构,及FsImage和EditLog

  • FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据;
  • EditLog操作日志文件中记录了所有针对文件的创建、删除、重命名等操作

名称节点记录了每个文件中各个块所在的数据节点的位置信息。
在这里插入图片描述
数据节点(DataNode)是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。

每个数据节点中的数据会被保存在各自节点的本地Linux文件系统中。

4 HDFS体系结构

4.1结构概述

HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)(如图3-4所示)。名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的。
在这里插入图片描述

4.2 HDFS命名空间管理

HDFS的命名空间包含目录、文件和块。

在HDFS1.0体系结构中,在整个HDFS集群中只有一个命名空间,并且只有唯一一个名称节点,该节点负责对这个命名空间进行管理。

HDFS使用的是传统的分级文件体系,因此,用户可以像使用普通文件系统一样,创建、删除目录和文件,在目录间转移文件,重命名文件等。

4.3 通信协议

HDFS是一个部署在集群上的分布式文件系统,因此,很多数据需要通过网络进行传输。

所有的HDFS通信协议都是构建在TCP/IP协议基础之上的

客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互。

名称节点和数据节点之间则使用数据节点协议进行交互。

客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的。在设计上,名称节点不会主动发起RPC,而是响应来自客户端和数据节点的RPC请求。

4.4 客户端

客户端是用户操作HDFS最常用的方式,HDFS在部署时都提供了客户端。

HDFS客户端是一个库,暴露了HDFS文件系统接口,这些接口隐藏了HDFS实现中的大部分复杂性。

严格来说,客户端并不算是HDFS的一部分。

客户端可以支持打开、读取、写入等常见的操作,并且提供了类似Shell的命令行方式来访问HDFS中的数据。

此外,HDFS也提供了Java API,作为应用程序访问文件系统的客户端编程接口

4.5 HDFS体系结构的局限性

HDFS只设置唯一一个名称节点,这样做虽然大大简化了系统设计,但也带来了一些明显的局限性,具体如下:

  • 命名空间的限制:名称节点是保存在内存中的,因此,名称节
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值