多机多卡docker分布式训练

一、基于pytorch开源的

pytorch分布式训练ddp,4台机器,每台8个卡。每台机器中配置了一个docker,具体方法参考:https://blog.csdn.net/weixin_41012399/article/details/128645840?spm=1001.2014.3001.5502
方法一:
每个主机的docker 容器配置一个独有ip,不同主机之间的容器相互连通。docker默认的内网网段为172.17.0.0/16,不同主机的容器ip有可能冲突,所以要先改ip。
参考方法:
https://blog.csdn.net/lihongbao80/article/details/122583848
https://www.shuzhiduo.com/A/8Bz8e3AVJx/
按照上边的教程改完ip以后容器内连不上网,应该是少配置了网关或者路由。请教了一个公司的运维同时。正确配置方法是在主机上先新添加一个网桥,这个网桥配置新的网段,启动容器的时候选择该网卡的配置项。
关于容器内网络设置参考一个比较全的文档:
https://blog.csdn.net/Trollz/article/details/126176819
https://blog.csdn.net/qq_42418169/article/details/119102917
添加完一个name叫做gpu的网桥

root@k8s-10-17-70-2-node:~# docker network ls
NETWORK ID     NAME      DRIVER    SCOPE
3bdc4b513df3   bridge    bridge    local
07d397c6a9e2   gpu       bridge    local
a14b41570df6   host      host      local
fe0801fe11b3   none      null      local
docker network ls
查看docker网卡

docker network rm 网卡id
删除docker网卡

docke
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值