HDFS整体总结(面试题)

本文详细介绍了HDFS的分布式概念、Hadoop组件、副本存放机制、Namenode与DataNode的作用、机架感知、数据写入与读取流程、数据完整性保障、系统特性、安全模式、SecondaryNameNode的工作机制以及集群扩容与权限控制等关键知识点,是HDFS面试的全面总结。
摘要由CSDN通过智能技术生成

1怎么理解分布式?
分布式是将资源分布存储或者分布计算的统称,分布式是指资源不再单一的再单独的服务器上进行存储或者计算,而是把一个数据拆分成小块进行存储,把多个节点一块进行计算

2hadoop 的组成部分
HDFS 分布式文件存储系统
管理者:NameNode
工作者:DataNode
辅助者:SecondayNameNode

MapReduce 分布式离线存储框架

Yarn Hadoop资源调度器
管理者:ResourceManager
工作者:NodeManager

3HDFS副本存放机制
第1个副本存放在客户端,如果客户端不在集群内,就在集群内随机挑选一个合适的节点进行存放;

第2个副本存放在与第1个副本同机架且不同节点,按照一定的规则挑选一个合适的节点进行存放;

第3个副本存放在与第1、2个副本不同机架且距第1个副本逻辑距离最短的机架,按照一定的规则挑选一个合适的节点进行存放;

4Namenode作用
一:管理文件系统的元数据/名字空间/目录树
二:管理DataNode汇报的心跳日志/报告
三:管理数据与节点之间的映射关系(管理文件系统中每个文件/目录的block块信息)

5DataNode作用
一:负责数据的读写操作
二:周期性的向NameNode汇报心跳日志/报告
三:执行数据流水线的复制

6什么是机架感知?
通俗的来说就是nameNode通过读取我们的配置来配置各个节点所在的机架信息

7什么时候会用到机架感知?
数据的流水线复制和HDFS复制副本时

8HDFS数据写入流程?
在这里插入图片描述
一:client 发起文件上传请求,通过 RPC 与 NameNode 建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;

二:client 请求第一个 block 该传输到哪些 DataNode 服务器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值