第一部分简答题
- 1.一个文件100M,上传到HDFS占用几个快?一个块128M,剩余的28M怎么办?
事实上,128只是个数字,数据超过128M,便进行切分,如果没有超过128M,就不用切分,
有多少算多少,不足128M的也是一个快。这个快的大小就是100M,没有剩余28M这个概念。
- 2.大数据为什么这么快?与传统数据相比有什么不同点?
a.传统数据纵向扩展,服务器数量不发生变化,配置越来越高,大数据横向扩展,配置不发生变化,服务器数量越来越多
b.传统的方式资源(cpu,内存,硬盘)集中,大数据的方式资源分布(相比前提是在同等配置的情况下)
c.传统的数据备份方式单份备份,大数据备份方式多份备份
d.传统的计算模型是移动数据到程序端,大数据计算模型是移动程序到数据段
e.相比之下大数据IO和网络的使用率都非常低,且多节点储存,多节点计算(众人拾柴火焰高)
a.jps查看进程
b.namenode所在节点的IP+50070端口查看HDFS的web界面是否可用
c.在HDFS系统中创建一个文件夹或文件,若可以创建则表示集群可以
- 4.Secondary NameNode在HDFS中是什么作用,他能不能替代NameNode
Secondary NameNode主要作用是辅助namenode管理元数据信息,负责辅助NameNode管理工作。他不能替代NameNode
a.第一份数据存放在客户端
b.第二份副本存放的位置与第一份数据在同一机架中,且不再同一节点,按照一定的规则找到一个节点存放
c.第三个副本存放的位置是与第一第二分数据副本不再同一机架上,
且逻辑与存放副本1和副本2的逻辑距离最近的机架上,按照一定的规则找到一个节点存放
a.维护,管理文件系统的名字空间(元数据信息)
b.负责确定指定文件块到具体的DataNode节点的映射关系
c.维护管理DataNode上报的心跳信息
将多个节点上的容量汇总到一起,拼接成一个大的文件系统,在一个节点上传数据,在其他的节点上都能够访问使用
a.HDFS:海量数据的存储
b.MapReduce:海量数据的计算
c.YARN:资源调度
负责工作,进行读写数据。 周期向NameNode汇报。
负责管理用户的文件数据块(一个大的数据拆分成多个小的数据块)
a.管理者:ResourceManager
b.工作者:NodeManager
第二部分简答题