Hadoop HDFS DataNode机制

     一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 (2)DataNode 启动后向 NameNode 注册,通过后,周期性(6 小时)的向 NameNode 上报所有的块信息。

DN 向 NN 汇报当前解读信息的时间间隔,默认 6 小时。

<property>
    <name>dfs.blockreport.intervalMsec</name>
    <value>21600000</value>
    <description>Determines block reporting interval in milliseconds.</description>
</property>

DN 扫描自己节点块信息列表的时间,默认 6 小时

<property>
	<name>dfs.datanode.directoryscan.interval</name>
	<value>21600s</value>
	<description>Interval in seconds for Datanode to scan data directories and reconcile the difference between blocks in memory and on 
	the disk.Support multiple time unit suffix(case insensitive), as describedin dfs.heartbeat.interval.
	</description>
</property>

心跳是每 3 秒一次,心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器,或删除某个数据块。如果超过 10 分钟没有收到某个 DataNode 的心跳,则认为该节点不可用。
集群运行中可以安全加入和退出一些机器。

数据完整性

  1. DataNode 节点保证数据完整性的方法。
  2. 当 DataNode 读取 Block 的时候,它会计算 CheckSum。 
  3. 如果计算后的 CheckSum,与 Block 创建时值不一样,说明 Block 已经损坏。
  4. Client 读取其他 DataNode 上的 Block。 
  5. 常见的校验算法 crc(32),md5(128),sha1(160) 
  6. DataNode 在其文件创建后周期验证 CheckSum。

需要注意的是 hdfs-site.xml 配置文件中的 heartbeat.recheck.interval 的单位为 毫秒 ,dfs.heartbeat.interval 的单位为

 

<property>
    <name>dfs.namenode.heartbeat.recheck-interval</name>
    <value>300000</value>
</property>
<property>
    <name>dfs.heartbeat.interval</name>
    <value>3</value>
</property>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值