一、填空题
1、 NameNode 用于维护文件系统名称并管理客户端对文件的访问, DataNode 存储真实的数据块。
2、 NameNode与DataNode通过 心跳监测机制 机制互相通信。
3、 NameNode以元数据形式维护着 fsimage 、 EditLog 文件。
二、判断题
1、Secondary NameNode是NameNode的备份,可以有效解决Hadoop集群单点故障问题。(×)
2、NameNode负责管理元数据,客户端每次读写请求时,都会从磁盘中读取或写入元数据信息并反馈给客户端。(√)
3、NameNode本地磁盘保存了数据块的位置信息。(×)
三、选择题
1、Hadoop2.x版本中的数据块大小默认是多少?( B )
A、 64M B、 128M
C、 256M D、 512M
2、关于Secondary NameNode哪项是正确?( B )
A、它是 NameNode 的热备
B、它对内存没有要求
C、它的目的是帮助 NameNode合并编辑日志,减少NameNode启动时间
D、SecondaryNameNode 应与NameNode部署到一个节点
3、客户端上传文件的时候哪项是正确的?(多选)( BD )
A、数据经过 NameNode 传递给 DataNode
B、客户端端将文件切分为多个Block,依次上传
C、客户端只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
D、客户端发起文件上传请求,通过RPC与NameNode建立通讯。
四、简答题
1、简述HDFS上传文件工作流程
答:(1)客户端发起文件上传请求,通过RPC(远程过程调用)与NameNode建立通讯;
(2)NameNode检查元数据文件的系统目录树;
(3)若系统目录树的父目录不存在该文件相关信息,返回客户端可以上传文件;
(4)客户端请求上传第一个Block数据块以及数据块副本的数量;
(5)NameNode检测元数据文件中DataNode信息池,找到可用的数据节点;
(6)NameNode检查元数据文件的系统目录树;
(7)若系统目录树的父目录不存在该文件相关信息,返回客户端可以上传文件
(8)DataNode之间建立Pipeline后,逐个返回建立完毕信息;
(9)客户端与DataNode建立数据传输流,开始发送数据包;
(10)客户端向DataNode_01上传第一个Block数据块,当DataNode_01收到一个Packet就会传给DataNode_02,DataNode_02传给DataNode_03,DataNode_01每传送一个Packet都会放入一个应答队列等待应答。
(11)数据被分割成一个个Packet数据包在Pipeline上依次传输,而在Pipeline反方向上,将逐个发送Ack,最终由Pipeline中第一个DataNode节点DataNode_01将Pipeline的 Ack信息发送给客户端。
(12)DataNode返回给客户端,第一个Block块传输完成。客户端则会再次请求NameNode上传第二个Block块和第三块到服务器上,重复上面的步骤,直到3个Block都上传完毕。
2、简述NameNode管理分布式文件系统的命名空间。
答:在NameNode内部是以元数据的形式,维护着两个文件,分别是FsImage镜像文件和EditLog日志文件。其中,FsImage镜像文件用于存储整个文件系统命名空间的信息,EditLog日志文件用于持久化记录文件系统元数据发生的变化。当NameNode启动的时候,FsImage镜像文件就会被加载到内存中,然后对内存里的数据执行记录的操作,以确保内存所保留的数据处于最新的状态,这样就加快了元数据的读取和更新操作。
五、编程题
1、通过Java API实现上传文件至HDFS中。
@Test
public void shanchuang2() throws IOException {
System.setProperty("HADOOP_USER_NAME","hadoop");
Configuration conf= new Configuration();
FileSystem fs=FileSystem.get(conf);
fs.copyFromLocalFile(new Path("c:/qingshu.txt"),new Path("hdfs://master:9000/aaa/bbb/ccc/qingshu2.txt"));}