Big Data＞简答题

最新推荐文章于 2023-06-25 17:41:52 发布

BigMoM1573

最新推荐文章于 2023-06-25 17:41:52 发布

阅读量517

点赞数 2

分类专栏： Big Data 简答题文章标签： Big Data

本文链接：https://blog.csdn.net/qq_44509920/article/details/102989851

版权

本文涵盖了HDFS和大数据的基础知识，包括HDFS的块大小、副本存放机制、NameNode与DataNode的角色、YARN的工作原理、分布式概念以及HDFS的安全模式。还讨论了Secondary NameNode的功能和集群扩容的相关步骤。

摘要由CSDN通过智能技术生成

第一部分简答题

1.一个文件100M，上传到HDFS占用几个快？一个块128M，剩余的28M怎么办？

事实上，128只是个数字，数据超过128M，便进行切分，如果没有超过128M，就不用切分，
有多少算多少，不足128M的也是一个快。这个快的大小就是100M，没有剩余28M这个概念。

2.大数据为什么这么快?与传统数据相比有什么不同点?

	a.传统数据纵向扩展,服务器数量不发生变化,配置越来越高,大数据横向扩展,配置不发生变化,服务器数量越来越多
	b.传统的方式资源(cpu,内存,硬盘)集中,大数据的方式资源分布(相比前提是在同等配置的情况下)
	c.传统的数据备份方式单份备份,大数据备份方式多份备份
	d.传统的计算模型是移动数据到程序端,大数据计算模型是移动程序到数据段
	e.相比之下大数据IO和网络的使用率都非常低,且多节点储存,多节点计算(众人拾柴火焰高)

3.如何验证集群是否可用?请说出两种以上方式

	a.jps查看进程
	b.namenode所在节点的IP+50070端口查看HDFS的web界面是否可用
	c.在HDFS系统中创建一个文件夹或文件,若可以创建则表示集群可以

4.Secondary NameNode在HDFS中是什么作用，他能不能替代NameNode

Secondary NameNode主要作用是辅助namenode管理元数据信息，负责辅助NameNode管理工作。他不能替代NameNode

5.请说出HDFS副本的存放机制

	a.第一份数据存放在客户端
	b.第二份副本存放的位置与第一份数据在同一机架中,且不再同一节点,按照一定的规则找到一个节点存放
	c.第三个副本存放的位置是与第一第二分数据副本不再同一机架上,
	且逻辑与存放副本1和副本2的逻辑距离最近的机架上,按照一定的规则找到一个节点存放

6.Namenode的作用

	a.维护,管理文件系统的名字空间(元数据信息)
	b.负责确定指定文件块到具体的DataNode节点的映射关系
	c.维护管理DataNode上报的心跳信息

7.请说出你对HDFS文件系统容量的理解

将多个节点上的容量汇总到一起,拼接成一个大的文件系统,在一个节点上传数据,在其他的节点上都能够访问使用

8.hadoop的组成部分有什么?

	a.HDFS:海量数据的存储
	b.MapReduce:海量数据的计算
	c.YARN:资源调度

9.DataNode的作用

  负责工作，进行读写数据。 周期向NameNode汇报。
  负责管理用户的文件数据块(一个大的数据拆分成多个小的数据块)

10.请说出YARN的管理者,工作者

	a.管理者:ResourceManager
	b.工作者:NodeManager

第二部分简答题

最低0.47元/天解锁文章

BigMoM1573

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录