python
文章平均质量分 77
EstrangedZ
这个作者很懒,什么都没留下…
展开
-
linux系统 ImportError: libX11. so. 6: cannot open shared object file: No such file or directory等问题
linux系统 ImportError: libX11. so. 6: cannot open shared object file: No such file or directory等动态库没有安装问题原创 2023-11-23 12:10:05 · 1802 阅读 · 0 评论 -
使用hugging face开源库accelerate进行多GPU训练(单机多卡)时,在保存模型结构的时候出现的问题
单机多卡训练出现 nboundLocalError: UnboundLocalErrorlocal variable 'epoch checkpoint’referenced before assignment:报错的解决方案原创 2023-10-14 11:31:15 · 937 阅读 · 0 评论 -
使用hugging face开源库accelerate进行多GPU(单机多卡)训练卡死问题
单机多卡训练出现[E ProcessGroupNCCL.cpp:828] [Rank 1] Watchdog caught collective operation timeout: WorkNCCL(OpType=BROADCAST, Timeout(ms)=1800000) ran for 1808499 milliseconds before timing out.的解决方案原创 2023-10-14 11:14:56 · 3530 阅读 · 3 评论 -
acclerator和tensorboard共同使用采坑记录
如何在使用hugging face开源库accelerate中的accelerator类来在多GPU种训练时,如何正确地使用tensorboard。原创 2023-09-14 19:07:06 · 984 阅读 · 0 评论 -
RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one.
使用pytorch和hugging face的accelerate库进行多GPU训练时,出现RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one.报错的情况原创 2023-09-13 17:01:45 · 1338 阅读 · 2 评论 -
pytorch采坑(Expected all tensors to be on the same device, but found at least two devices)
pytorch使用过程中遇到 Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:0! 这个问题原创 2023-07-03 17:47:36 · 4741 阅读 · 2 评论 -
使用pipreqs生成requirements文件,并在服务器(矩池云)上通过requirements文件安装环境采坑记录
使用vscode和ssh,配置远程服务器(矩池云)采坑记录原创 2023-06-07 11:17:31 · 1863 阅读 · 2 评论