Hadoop单节点中副本存放策略

本文介绍了Hadoop大数据环境中,数据节点如何选择磁盘存储数据的两种策略:round-robin和available space。round-robin策略通过磁盘轮询确保所有磁盘使用,但可能导致数据分布不均;available space策略则考虑磁盘空间平衡,优先选择空间充足的磁盘,有助于提高IO效率。在长时间运行或大量删除操作后,推荐使用available space策略以保持磁盘空间的均衡。Hadoop 3.0引入的磁盘均衡器可能进一步优化这一问题。
摘要由CSDN通过智能技术生成

       在实际的大数据生产环境中,每个数据节点也就是DataNode,会配置多个数据磁盘,每个磁盘对应一个数据目录,将这些数据目录配置到DataNode的hdfs-site.xml(dfs.datanode.data.dir),使用逗号分隔多个数据目录,这样做的好处可以使数据节点的增加读写效率,毕竟每个目录对应单独的磁盘IO,不互相占用或竞争,也可以增加数据节点的高可用性,通过配置dfs.datanode.failed.volumes.tolerated参数,默认不配置的值为0,即不能容忍出现错误磁盘,如果出现则整个数据节点启动不了。此时如果数据节点有10块磁盘则可以配置容忍2-3块磁盘出现错误,如果大面积的同时出现磁盘错误则需要检查导致出错原因(同时出现的几率很小,如果同时出现则可能是由于外界原因导致,需要排查)。
       上面讲述了配置多个磁盘的方法及容错配置,那么接下来看看数据节点接到写入数据的命令后,如何将数据存储到当前数据节点的哪个磁盘中呢?在DataNode的hdfs-site.xml中配置dfs.datanode.fsdataset.volume.choosing.poli

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值