HDFS整体总结(面试题)

1怎么理解分布式?
分布式是将资源分布存储或者分布计算的统称,分布式是指资源不再单一的再单独的服务器上进行存储或者计算,而是把一个数据拆分成小块进行存储,把多个节点一块进行计算

2hadoop 的组成部分
HDFS 分布式文件存储系统
管理者:NameNode
工作者:DataNode
辅助者:SecondayNameNode

MapReduce 分布式离线存储框架

Yarn Hadoop资源调度器
管理者:ResourceManager
工作者:NodeManager

3HDFS副本存放机制
第1个副本存放在客户端,如果客户端不在集群内,就在集群内随机挑选一个合适的节点进行存放;

第2个副本存放在与第1个副本同机架且不同节点,按照一定的规则挑选一个合适的节点进行存放;

第3个副本存放在与第1、2个副本不同机架且距第1个副本逻辑距离最短的机架,按照一定的规则挑选一个合适的节点进行存放;

4Namenode作用
一:管理文件系统的元数据/名字空间/目录树
二:管理DataNode汇报的心跳日志/报告
三:管理数据与节点之间的映射关系(管理文件系统中每个文件/目录的block块信息)

5DataNode作用
一:负责数据的读写操作
二:周期性的向NameNode汇报心跳日志/报告
三:执行数据流水线的复制

6什么是机架感知?
通俗的来说就是nameNode通过读取我们的配置来配置各个节点所在的机架信息

7什么时候会用到机架感知?
数据的流水线复制和HDFS复制副本时

8HDFS数据写入流程?
在这里插入图片描述
一:client 发起文件上传请求,通过 RPC 与 NameNode 建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;

二:client 请求第一个 block 该传输到哪些 DataNode 服务器

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值