HDFS
hadoop hdfs学习总结
码海拾贝2023
享受技术
展开
-
(六)HDFS安全模式
在namenode刚启动的时候,会进入安全模式(safe mode) 安全模式下,hdfs集群是不会进行block的复制 这个时候namenode会等着从各个datanode获取心跳和block report 然后看看集群里的整体的block情况,以及每个block有几个副本,默认是要有3个副本的如果一个block有3个副本,那么就ok了,安全了 如果一定比例(80%)的block都是有足够的3个副本的,那么namenode就会退出安全模式 此时如果发现有某个block副本数量不够(比如只有2个副原创 2023-03-14 21:04:34 · 1426 阅读 · 1 评论 -
(五)HDFS容错机制
设置关键性的参数 replication factor(复制因子),是每个block要复制几份副本到其他的机器上去,如果某台机器挂了,其他机器上有一模一样的block副本。 这个replication factor可以整体设置一下,也可以对每个文件设置一下,后续还可以修改过程写文件的时候,假如说默认的每个block就是3副本,此时namenode会先根据一个复制算法挑选出来3个datanode 每个datanode放一个block 客户端先第一个datanode写入一个block 接着da原创 2023-03-14 21:04:29 · 1283 阅读 · 0 评论 -
(四)HDFS双HA高可用机制
概述进入到了hadoop 2.x的时代,为了保证namenode上的元数据不会丢失,而且是高可用的,出现了双实例HA的机制原理集群里启动两个namenode,一个是active状态(主),一个是standby(备)状态。 所有的操作都是发送给active namenode的,然后standby namenode是一个热备,不停的同步元数据 集群里引入一组节点,叫做journal nodes,一般是启动3个journal nodes,用来保存edits log这种操作日志 每次n...原创 2023-03-14 21:04:24 · 1315 阅读 · 1 评论 -
(三)HDFS架构原理
Namenode 主节点(master)管理HDFS文件系统的命名空间,维护元数据信息, 处理客户端读写请求Datanode 从节点(slave)存储数据(Block),集群启动时,DataNode向NameNode汇报Block列表信息集群运行期间, 通过心跳机制定期(默认3秒) 与NameNode保持通信元数据(Metadata)信息存放在NameNode内存当中 包含:HDFS中文件及目录的基本属性信息(如拥有者、权限信息创建时间等)、文件有哪些block构成、 以及block..原创 2023-03-14 21:04:17 · 1431 阅读 · 0 评论 -
(二)HDFS架构设计理念与缺陷
目录设计理念1)支持超大数据集2)绝对能够应对硬件的故障3)流式数据处理4)简化的数据一致性模型5)尽量移动计算,但是不要移动数据缺陷1) 实时性差2) 小文件问题3)文件修改问题设计理念1)支持超大数据集hdfs分布式存储,将大量的数据存放到N台机器上,每台机器存放部分数据.机器可横向扩展,所以hdfs定位就是针对超大数据集的。2)绝对能够应对硬件的故障hdfs将超大数据集拆分成小块, 然后每个小块在多个机器上都有副本, 如果某个机器..原创 2023-03-14 21:04:10 · 1342 阅读 · 0 评论 -
(一)HDFS入门
目录简介:用途:小结:简介:HDFS ,分布式文件系统用途:1,在离线计算里,作为基础的分布式数据存储,供每天定时批量计算旧的数据.2,在实时计算里,作为基础的分布式数据存储,为hbase分布式NoSQL数据库提供支持,支持实时计算小结:就是一个分布式存储系统,主要的作用还是在于离线计算...原创 2023-03-14 21:02:10 · 1232 阅读 · 1 评论