深度学习
文章平均质量分 84
EstrangedZ
这个作者很懒,什么都没留下…
展开
-
使用hugging face开源库accelerate进行多GPU训练(单机多卡)时,在保存模型结构的时候出现的问题
单机多卡训练出现 nboundLocalError: UnboundLocalErrorlocal variable 'epoch checkpoint’referenced before assignment:报错的解决方案原创 2023-10-14 11:31:15 · 937 阅读 · 0 评论 -
使用hugging face开源库accelerate进行多GPU(单机多卡)训练卡死问题
单机多卡训练出现[E ProcessGroupNCCL.cpp:828] [Rank 1] Watchdog caught collective operation timeout: WorkNCCL(OpType=BROADCAST, Timeout(ms)=1800000) ran for 1808499 milliseconds before timing out.的解决方案原创 2023-10-14 11:14:56 · 3532 阅读 · 3 评论 -
acclerator和tensorboard共同使用采坑记录
如何在使用hugging face开源库accelerate中的accelerator类来在多GPU种训练时,如何正确地使用tensorboard。原创 2023-09-14 19:07:06 · 984 阅读 · 0 评论 -
RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one.
使用pytorch和hugging face的accelerate库进行多GPU训练时,出现RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one.报错的情况原创 2023-09-13 17:01:45 · 1339 阅读 · 2 评论 -
使用scp在两个linux系统之间传输文件
使用scp在两个linux系统之间传输文件原创 2023-09-05 18:35:17 · 170 阅读 · 0 评论 -
pytorch采坑(Expected all tensors to be on the same device, but found at least two devices)
pytorch使用过程中遇到 Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:0! 这个问题原创 2023-07-03 17:47:36 · 4741 阅读 · 2 评论 -
使用pipreqs生成requirements文件,并在服务器(矩池云)上通过requirements文件安装环境采坑记录
使用vscode和ssh,配置远程服务器(矩池云)采坑记录原创 2023-06-07 11:17:31 · 1864 阅读 · 2 评论 -
开坑:关于MATLAB 使用CNN进行图像分类时,训练输出的验证集精度会陡降的问题
MATLAB使用CNN对图像进行分类的时候,会出现输出的验证集精度陡降的问题原创 2022-09-28 17:17:36 · 1162 阅读 · 4 评论