HDFS2.0原理

最新推荐文章于 2022-07-25 18:56:51 发布

栗子呀！

最新推荐文章于 2022-07-25 18:56:51 发布

阅读量316

点赞数

分类专栏： hadoop hdfs 文章标签： hadoop hdfs 大数据分布式

本文链接：https://blog.csdn.net/qq_43665254/article/details/110873444

版权

hadoop 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

hdfs

1 篇文章 0 订阅

订阅专栏

HDFS 2.0 新特性
（1）NameNode HA
（2）NameNode Federation
（3）HDFS 快照
（4）HDFS 缓存
（5）HDFS ACL

hdfs2.0
1、2.0中NameNode HA主要解决单点故障问题（使用两个namenode，一个active NameNode 一个是standby NameNode）
2、因为有两个NameNode 所以数据一致性如何保证？
（1）共享网络文件系统（类似文件名->block数据块之间的映射关系（mapping关系））
（2）DataNode 同时向两个NameNode发送心跳机制（block->DataNode节点之间的映射关系）
在这里插入图片描述
3.JN（共享网络文件系统） --集群，前提是节点个数为奇数（因为要进行投票机制来确定文件存储）作用数据统一存储

4.利用QJM（只有投票，没有存储），JN部署和DN部署在一起
在这里插入图片描述
FailoverControllerActive：故障转移，利用zookeeper来保证，主要通过有序的临时节点来保证。

NameNode1挂掉后：

节点部署时候集群配置
（1）JN部署一般和DN在一起
（2）FC通常和NN部署在一起的，因为要监控NN
（3）NN可以和DN可以部署在一起，也可以分开
（4）zk（zookeeper）本身维护这一个集群

前面解决了高可用的问题，但是NN本身的内存资源也是不够的
联邦：解决了高可用、内存资源增加
通过将数据切分，产品部门，技术部门，其他业务部门，自己维护自己的nameNode，但是背后的数据都是共享一套DN
好处：减轻单一的NN压力，将数据可以通过其他的NN来管理
有利于集群的横向扩展，性能带来很大提升，因为每个NN都是自己维护的，所以资源得到隔离
本质：元数据管理与存储得到解耦，但是真实数据是共享的。
在这里插入图片描述
HDFS 快照：数据备份，灾备（很少接触，了解就行）
本质：快照只是记录block的大小和列表，但是并不涉及到数据的直接复制
• HDFS快照是一个只读的基于时间点文件系统拷贝
• 快照可以是整个文件系统的也可以是一部分。
• 常用来作为数据备份，防止用户错误操作和容灾恢复。
• Snapshot 并不会影响HDFS 的正常操作：修改会按照时间的反序记录，这样可
以直接读取到最新的数据。
• 快照数据是当前数据减去修改的部分计算出来的。
• 快照会存储在snapshottable的目录下。

HDFS的缓存：快速查询

ACL：
HDFS ACL
• Hadoop从2.4.0开始支持
• 目前HDFS的权限控制与Linux一致，包括用户、用户组、其他用户组三类权限
• 首先参数上要开启基本权限和访问控制列表功能
– dfs.permissions.enabled
• 常用命令：
– hadoop fs -getfacl /input/acl – hadoop fs -setfacl -m user:mapred:r-- /input/acl - hadoop fs -setfacl -x user:mapred /input/acl

dr（读权限）w（写权限）x（执行权限）（代表owner的权限）r-x（用户同组的权限）r-x （其他不是和owner同组的用户） 2（副本数） root supergroup 0 2020-12-05 23:05 /test
d表示目录，若是文件使用“-”