HDFS2.0原理

HDFS 2.0 新特性
(1)NameNode HA
(2)NameNode Federation
(3)HDFS 快照
(4)HDFS 缓存
(5)HDFS ACL

hdfs2.0
1、2.0中NameNode HA主要解决单点故障问题(使用两个namenode,一个active NameNode 一个是standby NameNode)
2、因为有两个NameNode 所以数据一致性如何保证?
(1)共享网络文件系统(类似文件名->block数据块之间的映射关系(mapping关系))
(2)DataNode 同时向两个NameNode发送心跳机制(block->DataNode节点之间的映射关系)
在这里插入图片描述
3.JN(共享网络文件系统) --集群,前提是节点个数为奇数(因为要进行投票机制来确定文件存储) 作用数据统一存储

4.利用QJM(只有投票,没有存储),JN部署和DN部署在一起
在这里插入图片描述
FailoverControllerActive:故障转移,利用zookeeper来保证,主要通过有序的临时节点来保证。
在这里插入图片描述
NameNode1挂掉后:
在这里插入图片描述
节点部署时候集群配置
(1)JN部署一般和DN在一起
(2)FC通常和NN部署在一起的,因为要监控NN
(3)NN可以和DN可以部署在一起,也可以分开
(4)zk(zookeeper)本身维护这一个集群

前面解决了高可用的问题,但是NN本身的内存资源也是不够的
联邦:解决了高可用、内存资源增加
通过将数据切分,产品部门,技术部门,其他业务部门,自己维护自己的nameNode,但是背后的数据都是共享一套DN
好处:减轻单一的NN压力,将数据可以通过其他的NN来管理
有利于集群的横向扩展,性能带来很大提升,因为每个NN都是自己维护的,所以资源得到隔离
本质:元数据管理与存储得到解耦,但是真实数据是共享的。
在这里插入图片描述
HDFS 快照:数据备份,灾备(很少接触,了解就行)
本质:快照只是记录block的大小和列表,但是并不涉及到数据的直接复制
• HDFS快照是一个只读的基于时间点文件系统拷贝
• 快照可以是整个文件系统的也可以是一部分。
• 常用来作为数据备份,防止用户错误操作和容灾恢复。
• Snapshot 并不会影响HDFS 的正常操作:修改会按照时间的反序记录,这样可
以直接读取到最新的数据。
• 快照数据是当前数据减去修改的部分计算出来的。
• 快照会存储在snapshottable的目录下。

HDFS的缓存:快速查询

ACL:
HDFS ACL
• Hadoop从2.4.0开始支持
• 目前HDFS的权限控制与Linux一致,包括用户、用户组、其他用户组三类权限
• 首先参数上要开启基本权限和访问控制列表功能
– dfs.permissions.enabled
• 常用命令:
– hadoop fs -getfacl /input/acl – hadoop fs -setfacl -m user:mapred:r-- /input/acl - hadoop fs -setfacl -x user:mapred /input/acl

dr(读权限)w(写权限)x(执行权限)(代表owner的权限)r-x(用户同组的权限)r-x (其他不是和owner同组的用户) 2(副本数) root supergroup 0 2020-12-05 23:05 /test
d表示目录,若是文件使用“-”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值