hadoop合并日志_hadoop四大机制两大核心

本文详细介绍了Hadoop HDFS的四大机制:心跳机制、安全模式、机架策略和负载均衡。心跳机制中,DataNode每3秒向NameNode发送心跳报告,NameNode在连续630秒未收到心跳报告才会判定DataNode死亡。安全模式在集群启动时启动,直到接收大部分DataNode心跳报告和块存储信息。机架策略确保副本分布在不同机架以提高容错性。负载均衡则保持节点间存储数据的均衡。此外,文章还涵盖了文件上传、下载和元数据管理流程。
摘要由CSDN通过智能技术生成

hdfs的4大机制,2大核心

hdfs提供的是高容错性的分布式数据存储方案

一、四大机制

hdfs的四大机制包括心跳机制、安全模式、机架策略和负载均衡。

hadoop集群start-dfs.sh启动集群时,各进程启动的顺序:

namenode

datanode

secondarynamenode

1.1 心跳机制

集群节点之间必须做时间同步,namenode是集群的老大,负责集群上任务的分工,如果要进行分工,则必须知道各个从节点的存活状况。

(1) namenode怎么知道从节点的存活?

答:通过datanode定期向namenode发送心跳报告。datanode会每隔3秒向namenode发送一次心跳报告,目的就是告诉namenode自己的存活状况。

默认情况下心跳间隔3秒的设置来源=》value决定datanode向namenode发送心跳报告的间隔时间。

dfs.heartbeat.interval

3

Determines datanode heartbeat interval in seconds.

(2) namenode什么时候会判定datanode死了?

答:datanode每隔3秒向namenode发送一次心跳报告,当namenode连续10次没有收到datanode的心跳报告则认为这个datanode可能死了,并没有判定死了(可能网络延迟),这个时候namenode会主动向datanode发送一次检查,发送一次检查的时间是5min(300000毫秒),如果一次检查没有返回信息,这时候namenode会再进行一次检查,如果再获取不到datanode的返回信息,这个时候才会判定当前的datanode死亡了。

dfs.namenode.heartbeat.recheck-interval

300000

This time decides the interval to check for expired datanodes.With this value and dfs.heartbeat.interval, the interval of deciding the datanode id stale ot not is also calculated. The unit of this configuration is millisecond.

即:namenode最终判断datanode死亡需要10*3s+2*5min=630s。namenode在连续630s中没有得到datanode的信息才会认为当前的datanode宕机。生产环境中,如果觉得网络可能会延迟,可以延长上述两个参数。

1.2 安全模式

集群启动的时候namenode需要做哪些事情:

(1)元数据:

1、抽象目录树

2、数据和块的映射关系 hadoop.tar.gz blk_463782 blk_673495

3、数据块存储的位置信息

元数据存储的位置:内存和磁盘。

内存:内存读写基于电流。读写速度快,但是一旦关机,就会造成数据丢失。故元数据既在内存存储ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值