关于Pycharm进行pytorch分布式训练代码

问题
可以命令行调用,但不能pycharm进行运行。
需要执行命令行是

CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch --nproc_per_node=2 --master_port=4321 basicsr/train.py -opt options/train/SIDD/HINet.yml --launcher pytorch

/data/lifei/HiNet3/basicsr/distributed/launch.py

  • 设置软连接
ln -s /home/lifei/.local/lib/python3.8/site-packages/torch/distributed/ /data/lifei/HINet-main1/basicsr/

注意此处:”/home/lifei/.local/lib/python3.8/site-packages/torch/distributed/“
其中launch.py是个动态变化的
在这里插入图片描述

  • 设置参数
  • pycharm中,编辑训练脚本launch.py的Edit Configurations,脚本选择软连接的/data/lifei/HINet-main1/basicsr/distributed/launch.py,参数设置如下:
  • --nproc_per_node=2 --master_port=4325 /data/lifei/HINet-main1/basicsr/train.py -opt /data/lifei/HINet-main1/options/train/SIDD/HINet.yml
    在这里插入图片描述
    补充:修改文件
    /data/lifei/HINet-main1/basicsr/distributed/launch.py
    添加
parser.add_argument("--local_rank", default=-1, type=int,
    				    help="node rank for distributed training")

在这里插入图片描述

  • 你会遇到问题,然后网上发现很多解决方法,有时候可能会立马解决,但多数不会,你需要再多看几个,多参考几个,然后思考自己的问题,找到能够解决自己问题的方法和答案。
  • 可之前的虽然没有直接解决问题,但我们的解决方案也是由他们帮助来的,所以要保持感谢的心。
  • 有时候,你误打误撞搞定了,回头又出题了,别慌,有点耐心,继续修改。
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值