debug
零粉丝入门
这个作者很懒,什么都没留下…
展开
-
DEBUG-- RuntimeError: CUDA error: invalid device ordinal
在使用以下代碼訓練時會報錯RuntimeError: CUDA error: invalid device ordinal,CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \python -m torch.distributed.launch \--nproc_per_node 8原因是机器的GPU数量和指定的GPU数量不一致,如果机器上只有4个GPU,就需要将代码修改为:CUDA_VISIBLE_DEVICES=0,1,2,3 \python -m torch.原创 2022-01-24 11:23:56 · 3336 阅读 · 0 评论 -
DEBUG -- 安装nccl-tests时的报错
NCCL 的全称为 Nvidia 聚合通信库(NVIDIA Collective Communications Library),是一个可以实现多个 GPU、多个结点间聚合通信的库,在 PCIe、Nvlink、InfiniBand 上可以实现较高的通信速度。对于每台主机均使用多进程的情况,使用 NCCL 可以获得最大化的性能。在安装完成后需要测试nccl,就可以使用自带的nccl-tests来测试nccl,但是会出现各种各样的错误。找不到nccl.h在编译nccl-tests时,使用make ncc原创 2022-01-24 11:16:36 · 2261 阅读 · 0 评论 -
DEBUG - Python默认版本和已安装版本不一致
在linux环境下,当安装python3.7后并且想使用python运行代码时却发现系统在使用python2.7运行代码,从而导致报错。这是因为系统默认的python路径和python2.7相绑定。想要解决这个问题就需要将python3.7的路径绑定到系统默认路径。$ sudo rm -rf python$ sudo ln -s /usr/bin/python3 /usr/bin/python再使用python运行代码时就会发现在使用python3.7了。相同的问题也会在使用cuda时出现,解决原创 2022-01-24 10:59:08 · 2332 阅读 · 1 评论 -
DEBUG --git: command not found
在使用git命令传输代码时,有时会遇到如下报错:git: command not found这个报错的解决方法很简单,只需要安装git就好,如下:yum install git -y #Centos下使用apt-get install git -y #Ubuntu/Debian下使用注意 -y 参数实在...原创 2022-01-24 10:35:15 · 2611 阅读 · 0 评论 -
DEBUG -- Syntax error: “(“ unexpected
在使用shell命令运行代码的时候,有时会出现syntax error。例如当运行以下代码时:sh run.sh会出现报错:Syntax error: "(" unexpected这是因为linux将sh默认指向了dash,而不是bash,而解决方法也很简单就是使用 bash 而不是 sh,就可以正常运行了,如下:bash run.sh...原创 2022-01-24 10:19:03 · 877 阅读 · 0 评论