一、基于pytorch开源的
pytorch分布式训练ddp,4台机器,每台8个卡。每台机器中配置了一个docker,具体方法参考:https://blog.csdn.net/weixin_41012399/article/details/128645840?spm=1001.2014.3001.5502
方法一:
每个主机的docker 容器配置一个独有ip,不同主机之间的容器相互连通。docker默认的内网网段为172.17.0.0/16,不同主机的容器ip有可能冲突,所以要先改ip。
参考方法:
https://blog.csdn.net/lihongbao80/article/details/122583848
https://www.shuzhiduo.com/A/8Bz8e3AVJx/
按照上边的教程改完ip以后容器内连不上网,应该是少配置了网关或者路由。请教了一个公司的运维同时。正确配置方法是在主机上先新添加一个网桥,这个网桥配置新的网段,启动容器的时候选择该网卡的配置项。
关于容器内网络设置参考一个比较全的文档:
https://blog.csdn.net/Trollz/article/details/126176819
https://blog.csdn.net/qq_42418169/article/details/119102917
添加完一个name叫做gpu的网桥
root@k8s-10-17-70-2-node:~# docker network ls
NETWORK ID NAME DRIVER SCOPE
3bdc4b513df3 bridge bridge local
07d397c6a9e2 gpu bridge local
a14b41570df6 host host local
fe0801fe11b3 none null local
docker network ls
查看docker网卡
docker network rm 网卡id
删除docker网卡
docke