1. 简述 checkpoint 机制
这里主要是用到了 SN 的作用,通过 SN 复制了原 NN 中的日志文件和 SN 中原有的镜像文件相结合,通过这样的原理, SN 等同于是 NN 的一个副本,当 NN 服务器遇到故障重启时,可以通过 SN 来恢复数据。
2. 如何 单独 重启 Namenode
dfs-sh.start
3. 简述 HDFS 读数据原理
客户端将请求发给 NN, 然后 NN 同意读数据,然后 NN 通过客户端的请求信息从它里面的元数据去找数据的位置(存储要读取的数据的 block 块在那三个 DN 里),然后把这些信息返回给客户端,客户端再通过这些信息去 DN 中拿数据。
4. 如何启动 z ookeeper 集群,如何确定 zookeeper 集群启动成功,如何停止 zookeeper 集群
ZkCli.sh,zkCli.sh status,zkCli.sh stop
5. 简述 HDFS 的 HA 高可用集群原理
最少需要两台 NN 服务器,当其中一台 NN 服务器遇到故障, hadoop 由于自带了一个 False 检测文件,它会间隔一小段时间就会向另一台服务器发送心跳告诉另一台服务器,它监管的这台在用的服务器有没有问题,监测正在运行服务器是不是坏掉了,当它检测到服务器坏掉之后,它会告诉它连接的另一台在 standby 的服务器,然后 standby 的服务器就会启动。
关于 standby 的服务器如何和正在运行的服务器的数据保持一致 :
两台服务器之间有一个数据文件监管系统,由 zookeeper 集群管理它,通过 zookeeper 保证它的数据一致性并且对它进行上下文调度管理,它用来保存 runing 服务器的变化的日志文件,然后发送到 standby 服务器上, standby 服务器会根据这些日志文件以及本身的元数据形成一个与 running 服务器保持一致的服务器。
关于脑裂:有时候可能因为网络原因, false 检查工具还是发送了需求让 standby 启动,这样就同时存在了两台 NN 服务器,这时候数据就会混乱。
脑裂的处理办法 :1. kill -9 2. 使用 shell 脚本
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31537584/viewspace-2286420/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/31537584/viewspace-2286420/