目录
1.hosts文件
linux host文件的配置
window host文件的配置
hadoop:如果是vm/内网机器,直接配内网ip;
如果是云主机,直接配外网ip。
tips:apache,hbase开发,hosts文件都要配置hbase集群的节点的ip hostname
2.web页面解读
browse directory能查看hdfs中所有的文件
运行案例,页面会显示作业名字,运行的人,类型,状态,内存,队列使用多少
3.块block
块的大小为128M,块的副本数为3(默认)
<property>
<name>dfs.blocksize</name>
<value>134217728</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
面试题:一个文件160m,块大小128m,副本数2。请问实际几个块,实际物理存储多少?
4个块,实际物理空间:160M*2=320M
4.HDFS架构设计
HDFS的进程:
- NameNode nn 名称节点
- secondary namenode snn 第二名称节点
- datanode dn 数据节点
nn-->文件系统的命名空间(面试题):
- 文件名称
- 文件目录结构
- 文件属性 创建时间 权限 副本数
- 文件对应哪些数据块 --> 数据块存储在哪些datanode上
作用:
管理文件系统的命名空间,维护文件系统树,以两种文件文件永久保存在磁盘上(持久化存储): 命名空间镜像文件 fsimage, 编辑日志 editlog
dn
存储:数据块 和数据块的校验和
与nn通信:
- 每隔3秒发送一个心跳
- 每10次心跳发送一次当前节点的blockreport
作用:读写文件的数据块
SNN
snn的文件记录
nn的日志记录
snn作用:定期合并fsimage+editlog文件为新的fsimage文件,推送nn个节点,简称为检查点 checkpoint