问题
可以命令行调用,但不能pycharm进行运行。
需要执行命令行是
CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch --nproc_per_node=2 --master_port=4321 basicsr/train.py -opt options/train/SIDD/HINet.yml --launcher pytorch
/data/lifei/HiNet3/basicsr/distributed/launch.py
- 设置软连接
ln -s /home/lifei/.local/lib/python3.8/site-packages/torch/distributed/ /data/lifei/HINet-main1/basicsr/
注意此处:”/home/lifei/.local/lib/python3.8/site-packages/torch/distributed/“
其中launch.py是个动态变化的
- 设置参数
- pycharm中,编辑训练脚本launch.py的Edit Configurations,脚本选择软连接的/data/lifei/HINet-main1/basicsr/distributed/launch.py,参数设置如下:
--nproc_per_node=2 --master_port=4325 /data/lifei/HINet-main1/basicsr/train.py -opt /data/lifei/HINet-main1/options/train/SIDD/HINet.yml
补充:修改文件
/data/lifei/HINet-main1/basicsr/distributed/launch.py
添加
parser.add_argument("--local_rank", default=-1, type=int,
help="node rank for distributed training")
- 你会遇到问题,然后网上发现很多解决方法,有时候可能会立马解决,但多数不会,你需要再多看几个,多参考几个,然后思考自己的问题,找到能够解决自己问题的方法和答案。
- 可之前的虽然没有直接解决问题,但我们的解决方案也是由他们帮助来的,所以要保持感谢的心。
- 有时候,你误打误撞搞定了,回头又出题了,别慌,有点耐心,继续修改。