hdfs rack机架感知配置

最新推荐文章于 2024-07-14 14:59:22 发布

IT农夫

最新推荐文章于 2024-07-14 14:59:22 发布

阅读量2k

点赞数

分类专栏：大数据文章标签： hadoop cdh hdfs

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

HDFS不能够自动判断集群中各个datanode的网络拓扑情况。这种机架感知需要topology.script.file.name属性定义的可执行文件（或者脚本）来实现，文件提供了IP->rackid的翻译。NameNode通过这个得到集群中各个datanode机器的rackid。如果topology.script.file.name没有设定，则每个IP都会翻译成/default-rack。

下面给出了一个script文件的c语言示例。这个文件需要处理多个输入参数的情况，每个参数是个ip。文件的输出对应就是rackid串。

int main(int argc , char *argv[])
{

                for(int i=1 ;i< argc; i++)
                {
                        char* ipStr     = argv[i];

// 找到ip对应的rack设置,下面的
cout<<"/rack1/"<<i<<" ";

}
cout<< endl;

}

网络拓扑

有了机架感知，NameNode就可以画出上图所示的datanode网络拓扑图。D1,R1都是交换机，最底层是datanode。则H1的rackid=/D1/R1/H1，H1的parent是R1，R1的是D1。这些rackid信息可以通过topology.script.file.name配置。有了这些rackid信息就可以计算出任意两台datanode之间的距离。

distance(/D1/R1/H1,/D1/R1/H1)=0 相同的datanode

distance(/D1/R1/H1,/D1/R1/H2)=2 同一rack下的不同datanode

distance(/D1/R1/H1,/D1/R1/H4)=4 同一IDC下的不同datanode

distance(/D1/R1/H1,/D2/R3/H7)=6 不同IDC下的datanode

副本放置策略

第一个block副本放在和client所在的node里（如果client不在集群范围内，则这第一个node是随机选取的，当然系统会尝试不选择哪些太满或者太忙的node）。

第二个副本放置在与第一个节点不同的机架中的node中（随机选择）。

第三个副本和第二个在同一个机架，随机放在不同的node中。

如果还有更多的副本就随机放在集群的node里。

Hadoop的副本放置策略在可靠性（block在不同的机架）和带宽（一个管道只需要穿越一个网络节点）中做了一个很好的平衡。下图是备份参数是3的情况下一个管道的三个datanode的分布情况。

http://blog.csdn.net/a822631129/article/details/48628497

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。