1怎么理解分布式?
分布式是将资源分布存储或者分布计算的统称,分布式是指资源不再单一的再单独的服务器上进行存储或者计算,而是把一个数据拆分成小块进行存储,把多个节点一块进行计算
2hadoop 的组成部分
HDFS 分布式文件存储系统
管理者:NameNode
工作者:DataNode
辅助者:SecondayNameNode
MapReduce 分布式离线存储框架
Yarn Hadoop资源调度器
管理者:ResourceManager
工作者:NodeManager
3HDFS副本存放机制
第1个副本存放在客户端,如果客户端不在集群内,就在集群内随机挑选一个合适的节点进行存放;
第2个副本存放在与第1个副本同机架且不同节点,按照一定的规则挑选一个合适的节点进行存放;
第3个副本存放在与第1、2个副本不同机架且距第1个副本逻辑距离最短的机架,按照一定的规则挑选一个合适的节点进行存放;
4Namenode作用
一:管理文件系统的元数据/名字空间/目录树
二:管理DataNode汇报的心跳日志/报告
三:管理数据与节点之间的映射关系(管理文件系统中每个文件/目录的block块信息)
5DataNode作用
一:负责数据的读写操作
二:周期性的向NameNode汇报心跳日志/报告
三:执行数据流水线的复制
6什么是机架感知?
通俗的来说就是nameNode通过读取我们的配置来配置各个节点所在的机架信息
7什么时候会用到机架感知?
数据的流水线复制和HDFS复制副本时
8HDFS数据写入流程?
一:client 发起文件上传请求,通过 RPC 与 NameNode 建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;
二:client 请求第一个 block 该传输到哪些 DataNode 服务器