深度学习硬件配置

最新推荐文章于 2023-09-26 16:12:01 发布

噜噜噜Luminary

最新推荐文章于 2023-09-26 16:12:01 发布

阅读量1.2k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_40425435/article/details/117854475

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

训练ResNet50+FPN时出现问题：

Loss is nan, stopping training
{'loss_classifier': tensor(nan, device='cuda:0', grad_fn=<NllLossBackward>), 'loss_box_reg': tensor(nan, device='cuda:0', grad_fn=<DivBackward0>), 'loss_objectness': tensor(nan, device='cuda:0', grad_fn=<BinaryCrossEntropyWithLogitsBackward>), 'loss_rpn_box_reg': tensor(nan, device='cuda:0', grad_fn=<DivBackward0>)}

这个问题代表模型发散（loss=nan）
解决办法：
1.尝试用CPU训练，如果正常，则为cuda环境问题，如果不正常，则为标注问题，采用labelimg标注图片；
2.如果cuda为11，则尝试将cuda版本改为10

一、查看自己的电脑配置

1.CPU
在这里插入图片描述
图中也有显示内存为7.8g

2.GPU
在这里插入图片描述

3.pcie
下载adia64，打开后，如下图操作

4.电源接口查看

二.选型了解

三、2021年显卡选购

注意：
购买时需要注意三点：与主板是否兼容(即pcie)，和电源是否匹配（通过工作站型号上网查询电源功率或者将工作站拆开查看电源功率），散热问题

噜噜噜Luminary

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习硬件配置

训练ResNet50+FPN时出现问题：Loss is nan, stopping training{'loss_classifier': tensor(nan, device='cuda:0', grad_fn=<NllLossBackward>), 'loss_box_reg': tensor(nan, device='cuda:0', grad_fn=<DivBackward0>), 'loss_objectness': tensor(nan, device='cuda:0
复制链接

扫一扫