conda换源安装torch+vscode分布式训练调试

该文指导如何在Linux系统下,通过Anaconda使用清华大学镜像源安装PyTorchGPU版本,包括查找合适的CUDA版本、安装torchvision,以及在VSCode中配置多卡训练的launch.json文件,实现单文件启动分布式训练。
摘要由CSDN通过智能技术生成

conda换源安装torch(linux系统+anaconda)

1、找到.condarc文件
2、替换为一下内容:

channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud


3、conda info 命令查看目前使用的源
4、通过nvidia-smi查看自己电脑支持的cuda最高版本
5、conda search pytorch 查看目前可用conda 安装的pytorch版本,注意不仅查看版本号,还要看后面的release版本
6、安装pytorch GPU版本:conda install pytorch=1.12.1=gpu_cuda113py38h19ae3d8_1
7、以上方案可以直接在虚拟环境执行,不需要自己单独安装cuda与cudnn,但是还需要安装torchvision,同样conda search torchvision之后按照后面的release版本查看和自己cuda(113)相符合的版本,执行安装:conda install torchvision=0.13.1=py38_cu113
8、大工告成,这是目前尝试过最简单的安装方法。
9、以往我们安装的时候只注意版本号,比如1.12.1这些,但是一个版本号可能对应很多个release版本,直接安装往往不匹配,因此后面需要把release版本加上做一个限制。

vscode分布式训练调试

单卡训练往往好调试,那么多卡怎们办呢?很简单,在launch.json中修改:

{
    // Use IntelliSense to learn about possible attributes.
    // Hover to view descriptions of existing attributes.
    // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
    "version": "0.2.0",
    "configurations": [
        {
            "name": "Python: 当前文件",
            "type": "python",
            "request": "launch",
            "program": "/home/{你自己的用户名}/.conda/envs/{虚拟环境名称}/lib/python3.7/site-packages/torch/distributed/launch.py",
            "console": "integratedTerminal",
            "args": [
                "--nproc_per_node=1",
                "fixmatch.py",
            ],
            "env": {"CUDA_VISIBLE_DEVICES":"0"},
        }
    ]
}

总的来说就是找到你目前虚拟环境中launch.py位置替换program以及将你执行的主文件替换fixmatch.py。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值