《Hadoop大数据技术原理与应用(第2版)》
课后习题答案
第1章 初始Hadoop
一、填空题
1.半结构化数据、非结构化数据
2.多样、低价值密度、高速
3.Nutch
4.高容错性、高效率、高扩展性
二、判断题
1.对
2.错
3.错
4.错
三、选择题
1.A、B、C、D
2.B
3.C
四、简答题
简述Hadoop的优点及其含义。
(1)低成本
企业可以使用多台廉价的计算机组建集群环境,通过分布式系统处理大规模数据集,而不是通过高性能的单台计算机处理大规模数据集,并且Hadoop是开源大数据处理框架,这大大降低了企业的使用成本。
(2)高可靠性
Hadoop自动维护数据文件的多份副本,可以有效防止数据丢失的情况发生。
(3)高容错性
若执行计算的过程中,某个计算机宕机,那么Hadoop会自动将该计算机上执行的任务转移到其他计算机上继续执行,以防止任务执行失败。
(4)高效率
Hadoop可以高效地执行并行计算,并且Hadoop能够在各个计算机之间动态地移动计算,以确保每台计算机在执行计算时可以最快的获取到将要处理的数据,以此来提高计算效率。
(5)高扩展性
Hadoop可以随时通过添加更多的计算机来增加集群的存储和计算能力。
第2章 部署Hadoop集群
一、填空题
1.伪分布式模式、完全分布式模式
2.workers
3.hdfs namenode -format
4.start-dfs.sh
5.9870
二、判断题
1.错
2.对
3.对
4.错
5.对
三、选择题
1.B
2.D
3.A、B、C
四、简答题
简述本地模式、伪分布式模式和完全分布式模式部署Hadoop的区别。
独立模式是一种在单台计算机的单个JVM进程中模拟Hadoop集群的工作模式。伪分布式模式是一种在单台计算机的不同JVM进程中运行Hadoop集群的工作模式。完全分布式模式是一种在多台计算机的JVM进程中运行Hadoop集群的工作模式。
第3章 HDFS分布式文件系统
一、填空题
1.NameNode
2.dfs
3.Fsimage
4.NameSpace
5.编码
二、判断题
1.错
2.对
3.对
4.错
5.错
三、选择题
1.B
2.C
3.D
四、简答题
1.简述HDFS的健壮性
(1)心跳机制
HDFS在运行期间,为了确保NameNode可以实时获取每个DataNode的健康状态,会将NameNode和每个DataNode之间建立一种心跳机制,即每个DataNode会根据固定间隔时间(默认为3秒)周期性的向NameNode发送心跳信息。
(2)副本机制
副本机制可以确保存储在DataNode的每个Block都存在多个副本,默认的副本数为3(包含自身),即每个Block除自身外还存在2个副本,并且每个副本会分配到不同的DataNode。
(3)数据完整性校验
当客户端从HDFS读取文件时,会计算这个文件中每个Block的校验和,并将校验和保存为隐藏文件,当客户端获取文件内容后,它会校验从DataNode获取Block的校验和,并与保存为隐藏文件的校验和进行匹配。
(4)安全模式
HDFS的安全模式是一种特殊状态,该状态下对于客户端来说只能对HDFS读,不能写。
(5)快照
HDFS的快照是HDFS整个文件系统或某个目录在某个时间点的镜像。
2.简述HDFS写文件的流程,设文件大小为300MB。
(
06-03
3085
