《Hadoop大数据技术原理与应用》（第2版）黑马程序员的课后习题答案

一只破豆豆

于 2024-06-22 18:35:12 发布

阅读量3.2k

点赞数 32

文章标签：大数据 hadoop 分布式

本文链接：https://blog.csdn.net/qq_36773158/article/details/139886386

版权

《Hadoop大数据技术原理与应用（第2版）》
课后习题答案
第1章初始Hadoop
一、填空题
1．半结构化数据、非结构化数据
2．多样、低价值密度、高速
3．Nutch
4．高容错性、高效率、高扩展性
二、判断题
1．对
2．错
3．错
4．错
三、选择题
1．A、B、C、D
2．B
3．C
四、简答题
简述Hadoop的优点及其含义。
（1）低成本
企业可以使用多台廉价的计算机组建集群环境，通过分布式系统处理大规模数据集，而不是通过高性能的单台计算机处理大规模数据集，并且Hadoop是开源大数据处理框架，这大大降低了企业的使用成本。
（2）高可靠性
Hadoop自动维护数据文件的多份副本，可以有效防止数据丢失的情况发生。
（3）高容错性
若执行计算的过程中，某个计算机宕机，那么Hadoop会自动将该计算机上执行的任务转移到其他计算机上继续执行，以防止任务执行失败。
（4）高效率
Hadoop可以高效地执行并行计算，并且Hadoop能够在各个计算机之间动态地移动计算，以确保每台计算机在执行计算时可以最快的获取到将要处理的数据，以此来提高计算效率。
（5）高扩展性
Hadoop可以随时通过添加更多的计算机来增加集群的存储和计算能力。
第2章部署Hadoop集群
一、填空题
1．伪分布式模式、完全分布式模式
2．workers
3．hdfs namenode -format
4．start-dfs.sh
5．9870
二、判断题
1．错
2．对
3．对
4．错
5．对
三、选择题
1．B
2．D
3．A、B、C
四、简答题
简述本地模式、伪分布式模式和完全分布式模式部署Hadoop的区别。
独立模式是一种在单台计算机的单个JVM进程中模拟Hadoop集群的工作模式。伪分布式模式是一种在单台计算机的不同JVM进程中运行Hadoop集群的工作模式。完全分布式模式是一种在多台计算机的JVM进程中运行Hadoop集群的工作模式。
第3章 HDFS分布式文件系统
一、填空题
1．NameNode
2．dfs
3．Fsimage
4．NameSpace
5．编码
二、判断题
1．错
2．对
3．对
4．错
5．错
三、选择题
1．B
2．C
3．D
四、简答题
1．简述HDFS的健壮性
（1）心跳机制
HDFS在运行期间，为了确保NameNode可以实时获取每个DataNode的健康状态，会将NameNode和每个DataNode之间建立一种心跳机制，即每个DataNode会根据固定间隔时间（默认为3秒）周期性的向NameNode发送心跳信息。
（2）副本机制
副本机制可以确保存储在DataNode的每个Block都存在多个副本，默认的副本数为3（包含自身），即每个Block除自身外还存在2个副本，并且每个副本会分配到不同的DataNode。
（3）数据完整性校验
当客户端从HDFS读取文件时，会计算这个文件中每个Block的校验和，并将校验和保存为隐藏文件，当客户端获取文件内容后，它会校验从DataNode获取Block的校验和，并与保存为隐藏文件的校验和进行匹配。
（4）安全模式
HDFS的安全模式是一种特殊状态，该状态下对于客户端来说只能对HDFS读，不能写。
（5）快照
HDFS的快照是HDFS整个文件系统或某个目录在某个时间点的镜像。
2．简述HDFS写文件的流程，设文件大小为300MB。
（

最低0.47元/天解锁文章