vscode分布式训练debug

摸鱼肥仔

已于 2022-11-19 17:15:13 修改

阅读量845

点赞数 3

文章标签： python pytorch vscode

于 2022-11-19 17:12:58 首次发布

本文链接：https://blog.csdn.net/m0_46336568/article/details/127938701

版权

vscode分布式训练debug

使用多个gpu训练神经网络是，如何配置launch文件来debug是必不可少的。平常分布式训练时，我们一般会写一个shell脚本来配置训练参数，通过torch.distributed.launch来启动分布式训练。

#!/bin/bash
export CUDA_VISIBLE_DEVICES=4,5,6,7
export NCCL_P2P_DISABLE=0

python -m torch.distributed.launch --nproc_per_node=8 \
    --master_port=18119 --nnodes=1 --node_rank=0 \
    --master_addr=127.0.0.1 /home/feifei/project/yolov3/train.py \
    --epoch=100 \
    --batch_size=4 \

debug中使用分布式训练需要找到torch分布式包中的launch.py文件，将launch.json文件中的"program"修改为launch.py的路径。其他参数添加到“args”中。
在这里插入图片描述

参考链接：https://www.cxyzjd.com/article/qianbin3200896/108182504

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

摸鱼肥仔

关注关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
vscode分布式训练debug

使用多个gpu训练神经网络是，如何配置launch文件来debug是必不可少的。平常分布式训练时，我们一般会写一个shell脚本来配置训练参数，通过torch.distributed.launch来启动分布式训练。debug中使用分布式训练需要找到torch分布式包中的launch.py文件，将launch.json文件中的"program"修改为launch.py的路径。其他参数添加到“args”中。
复制链接

扫一扫