分布式文件系统概述
-
本地文件管理
通常包含四类信息:- 超级块:含有整个文件系统中数据块和inode的相关信息
- Inode:用来描述文件和目录的属性和文件块在块设备上的位置信息
- 文件内容:用户的数据,是无结构
- 目录内容:是目录项,是结构
-
分布式文件系统
实现分布式文件系统的两种方法:共享文件系统、共享磁盘
在共享磁盘模型中,系统中没有文件服务器,而代之以共享磁盘。共享磁盘往往是一种专用的高端存储设备,如IBM SSA 磁盘。
分布式文件系统基本架构
主要服务器包括:
主控服务器:负责整个文件系统的管理,包括命名空间的维护、数据服务器管理、服务调度等。
数据服务器:负责数据的存储和备份,包括数据本地存储、状态维护、副本管理等。
客户端:主要有两个作用
- 接口,用户最终通过文件系统提供的接口来存取数据
- 缓存,为加速文件存取过程,同时减少主控服务器的负担,将元信息进行缓存
GFS分布式文件系统
是一个面向大规模数据处理的分布式文件系统
数据块大小64MB
实现流程:
- 客户端将文件名和程序指定的字节偏移,根据固定的block大小,转换成文件的block索引
- 客户端把文件名和block索引发送给master节点。Master节点将相应的block表示和副本的位置发给客户端。客户端用文件名和block索引作为key缓存这些信息
- 客户端发送请求到其中的一个chunk处,一般根据就近原则。请求信息包含block的表示和字节范围。在对这个block的后续读取操作中,客户端不必再和master进行节点通讯,除非缓存的元数据信息过期或者文件被重新打开。实际上,客户端通常会在一次请求中查询多个block信息
- chunk服务器返回给客户端要读取的chunk数据
分布式应用协调器
ZooKeeper 是Hadoop 的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
ZooKeeper 的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户使用。达到最终一致性、可靠性、实时性、等待无关、原子性、顺序性
作业
选择题
-
负责维护文件系统的命名空间和集中管理数据服务器的是
()
主控服务器
-
()
不是主控服务器的功能- 是的有
命名空间的维护
、数据服务器管理
、服务调度
、而数据本地存储不属于
- 是的有
-
GFS的特点有
()
数据流与控制流分开
-
GFS大文件块的特点不包括
()
- 包括
减少client和master的交互次数
、减少元数据规模
、减少client和chunkserver的交互次数
不包括容易随机写入
- 包括
-
HDFS的优点不包括
- 包括
适合处理大型文件
、可以流式访问数据
、可以运行于商用机器集群
不包括
- 包括
-
ZooKeeper的设计目的不包括
- 包括
具有简单、健壮、良好的性能
、保证客户端在一定时间内收到服务器更新的信息
、client无论连接到哪个server,其视图都一样
不包括更新除了成功和失败,还加入了中间状态
- 包括
-
云存储分类不包括
- 包括
数据块级云存储
、文件级云存储
、对象级云存储
不包括磁盘块级云存储
- 包括
-
云存储的基础管理层负责的功能是
数据加密、备份、容灾
-
属于企业级云存储的是
空间租赁服务
-
云存储的应用接口层需要有
()
功能提供API接口
判断题
-
最早的分布式文件系统是PanFS(
×
)- 是NFS
-
共享磁盘模型中,没有文件服务器(
√
) -
共享文件系统中,客户直接以磁盘块的方式存取文件数据(
×
)- 在共享磁盘系统中才是以磁盘块的方式
-
在GFS架构中,数据块的位置信息将永久存储在本地磁盘(
×
) -
HDFS文件小于数据块大小,也会占用整个数据块(
×
)- 不会占用整个数据块
-
ZooKeeper中客户端不发起请求(
×
)- 是发起请求的
-
云存储系统由多个存储设备组成,通过分布式文件系统等功能协同工作(
√
) -
对象级云存储是提供告诉、直接的数据块存储访问服务(
×
)- 采用的是对象块
-
网络磁盘属于个人级云存储(
√
) -
GFS中client和master之间既有控制流、又有数据流(
×
)- 没有数据流
填空题
- 分布式文件系统中的架构中,重要的服务器包括主控服务器、
()
、()
数据服务器
、客户端
- 分布式文件系统实现方式是
()
共享文件系统和共享磁盘
- 分布式文件系统中,客户端的功能有
()
接口和缓存
- HDFS数据块大小为
64MB
- ZooKeeper中的角色有
()
领导者、学习者、客户端
- 本地文件系统含有
()
、()
、文件内容、目录内容4类信息超级块
、Inode
- 数据服务器负责数据本地存储、
()
、()
状态维护
,副本管理
- GFS数据块大小为
()
64MB
- 在分布式文件系统的架构中,负责命名空间维护的是
()
主控服务器