Ubuntu Ray 分布式训练
在多台机器上部署相同的环境
sudo apt install awscli
创建 Anaconda 环境并保持 python 环境中的以下几项在所有机器上均完全相同
python版本号
boto3版本号
torch版本号
torchvision版本号
ray版本号
启动运行代码的机器
在要运行代码的机器上打开配置好的 python 环境,运行
ray start --head --port=<target-port>
并记录需要在其他主机上输入的密码
启动若干其他提供算力的机器
在要提供算力的机器上打开配置好的 python 环境,运行前一步得到的命令
ray start --address=<target-address> <possible-options>
运行代码
在要运行代码的机器上运行代码,并修改初始化
ray.init(address="auto")
停止提供算力
ray stop