- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 报错 ERROR:torch.distributed.elastic.agent.server.local_elastic_agent:[default] Worker group failed
我是在多机多卡训练一直正常跑程序都几个月了突然出问题,怎么也解决不了,换了别的节点发现不是程序的错。这个ERR不是一开始就出现了,我调了一晚上一直没出现,第二天早上再看的时候才有的。我选择重启了,但依然无法解决,这种情况绝对是硬件的问题了,只能维修了。本帖只解决只出现这一个error,没有其他错误的情况!最后发现是显卡5号被过热无法使用了或者说暂时坏掉了,出现。我有多个节点,一个节点有多张卡,我用的单机多卡训练。
2023-11-09 14:49:05 611 1
原创 报错:ModuleNotFoundError: No module named ‘_distutils_hack‘
打开error对应的文件/home/chenqianyi/anaconda3/envs/pysyft/lib/python3.7/site-packages/distutils-precedence.pth。将import os;后面加上一个enter换行。服务器环境配置存在问题。
2023-10-16 21:21:48 1537 2
原创 虽然包已经安装过了,但报错说未安装
测试简单程序,就能发现是哪个包的问题(包安过了但版本不匹配,所以现实未安装),重新安装显示出问题的包应该就能解决了。
2023-10-16 19:31:39 150 1
原创 报错ImportError: libffi.so.8: cannot open shared object file: No such file or directory
python版本问题,高或者低都有可能,这种情况最好重新安装了,从头开始。
2023-10-16 19:29:06 1067 2
原创 报错module ‘requests.packages.urllib3.util‘ has no attribute ‘retry‘
这个基本不用怀疑是requests版本太低,升级版本(如果可以就升级到最新的)基本可以解决问题, 类似的问题解决方法都是升级底层依赖包。下载依赖包可以到这里https://pypi.tuna.tsinghua.edu.cn/simple/包的名称/module ‘requests.packages.urllib3.util’ has no attribute 'retry’如何解决。
2023-03-29 21:09:34 446
关于segformer代码问题
2023-03-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人