踩坑日常---深度学习炼丹过程

最新推荐文章于 2024-06-15 19:16:18 发布

古镇风雨

最新推荐文章于 2024-06-15 19:16:18 发布

阅读量305

点赞数 2

文章标签：深度学习人工智能神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_37718529/article/details/129207599

版权

在运行PyTorch分布式任务时，NCCL错误可能由于非100%GPU使用率导致多worker在同一GPU上。解决方案包括确保每个worker使用完整GPU或切换到gloo通信库。

摘要由CSDN通过智能技术生成

控制端使用分布式训练时`PORT=29502 ./tools/dist_train.sh` 23.2.24

RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:825, invalid usage, NCCL version 2.7.8

  运行pytorch分布式任务时，可能在执行dist.barrier()这条代码时会触发NCCL错误：RuntimeError: NCCL error in: ../torch/lib/c10d/ProcessGroupNCCL.cpp:514, invalid usage, NCCL version。

  报错原因在于每个worker申请使用的不是 100% 的 GPU，而是50%、30%等，这有可能导致多个 worker 被放到同一张 GPU 上去。NCCL 不支持多个 work 放在同一个 GPU 上。
  
  解决方案：
  1、每个worker申请100% GPU
  2、集体通信库从nccl改为gloo

  dist.init_process_group('nccl')  更改  dist.init_process_group("gloo")

未完待续。。。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
踩坑日常---深度学习炼丹过程

错误踩坑警示记录手册
复制链接

扫一扫

古镇风雨 CSDN认证博客专家 CSDN认证企业博客

码龄7年

24: 原创

12万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

453: 积分

16: 粉丝

41: 获赞

6: 评论

36: 收藏

私信

关注

热门文章

分类专栏

最新评论

深度学习-环境配置
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
cuda-pytorch-gpu环境配置
王佳Gre: 引用「https://download.pytorch.org/whl/torch_stable.html」牛啊
路径条数（迷宫问题的递归方法）
Pinoooo: 要控制i和j的范围啊，否则会越界的，什么也输不出来 while内部可以参考一下： while(di < 2) { switch(di) { case 0:i = xi; j = yi - 1; break; case 1:i = xi - 1; j = yi; break; } if(i > 0 && j > 0)//防止越界 { path.data[path.length].i = xi; path.data[path.length].j = yi; path.length++; mg[xi][yi] = -1; mgpath(i,j,xe,ye,path); path.length--; mg[xi][yi] = 0; } di++; }
路径条数（迷宫问题的递归方法）
berrybai001: 正确代码如下：[code=cpp] #include<stdio> #define MaxSize 10 typedef struct{ int i; int j; }Box; typedef struct { Box data[MaxSize]; int length; } PathType; int mg[4][7]={{1,1,1,1,1,1,1},{1,0,0,0,0,0,1},{1,0,0,0,0,0,1},{1,1,1,1,1,1,1}}; int count=0; void mgpath(int xi,int yi,int xe,int ye,PathType path) { int di,k,i,j; if(xi==xe&&yi==ye) { path.data[path.length].i=xi; path.data[path.length].j=yi; path.length++; printf("迷宫路径%d如下:\n",++count); for(k=0;k<path.length;k++) printf("\t(%d,%d)",path.data[k].i,path.data[k].j); printf("\n"); } else { if(mg[xi][yi]==0) { di=0; while(di<2) { path.data[path.length].i=xi; path.data[path.length].j=yi; path.length++; switch(di) { case 0:i=xi; j=yi-1; break; case 1:i=xi-1; j=yi; break; } mg[xi][yi]=-1; mgpath(i,j,xe,ye,path); mg[xi][yi]=0; path.length--; di++; } } } } int main(){ int a,b,c,d; PathType path; path.length=0;
路径条数（迷宫问题的递归方法）
berrybai001: 你都没有设置边界条件兄弟

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。