深度学习
文章平均质量分 78
EstrangedZ
这个作者很懒,什么都没留下…
展开
-
使用requirements.txt文件安装cuda(GPU)版本的pytorch
使用requirements.txt和pip install -r requirements.txt 的方法安装cuda版本的pytorch原创 2024-07-14 14:23:41 · 989 阅读 · 2 评论 -
anaconda更改镜像源相关代码
设置镜像源提高下载速度原创 2024-07-14 12:15:54 · 351 阅读 · 0 评论 -
使用hugging face开源库accelerate进行多GPU训练(单机多卡)时,在保存模型结构的时候出现的问题
单机多卡训练出现 nboundLocalError: UnboundLocalErrorlocal variable 'epoch checkpoint’referenced before assignment:报错的解决方案原创 2023-10-14 11:31:15 · 1127 阅读 · 0 评论 -
使用hugging face开源库accelerate进行多GPU(单机多卡)训练卡死问题
单机多卡训练出现[E ProcessGroupNCCL.cpp:828] [Rank 1] Watchdog caught collective operation timeout: WorkNCCL(OpType=BROADCAST, Timeout(ms)=1800000) ran for 1808499 milliseconds before timing out.的解决方案原创 2023-10-14 11:14:56 · 5212 阅读 · 3 评论 -
acclerator和tensorboard共同使用采坑记录
如何在使用hugging face开源库accelerate中的accelerator类来在多GPU种训练时,如何正确地使用tensorboard。原创 2023-09-14 19:07:06 · 1868 阅读 · 0 评论 -
RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one.
使用pytorch和hugging face的accelerate库进行多GPU训练时,出现RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one.报错的情况原创 2023-09-13 17:01:45 · 2575 阅读 · 5 评论 -
使用scp在两个linux系统之间传输文件
使用scp在两个linux系统之间传输文件原创 2023-09-05 18:35:17 · 202 阅读 · 0 评论 -
pytorch采坑(Expected all tensors to be on the same device, but found at least two devices)
pytorch使用过程中遇到 Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:0! 这个问题原创 2023-07-03 17:47:36 · 5293 阅读 · 2 评论 -
使用pipreqs生成requirements文件,并在服务器(矩池云)上通过requirements文件安装环境采坑记录
使用vscode和ssh,配置远程服务器(矩池云)采坑记录原创 2023-06-07 11:17:31 · 2406 阅读 · 2 评论 -
开坑:关于MATLAB 使用CNN进行图像分类时,训练输出的验证集精度会陡降的问题
MATLAB使用CNN对图像进行分类的时候,会出现输出的验证集精度陡降的问题原创 2022-09-28 17:17:36 · 1261 阅读 · 4 评论