训练ResNet50+FPN时出现问题:
Loss is nan, stopping training
{'loss_classifier': tensor(nan, device='cuda:0', grad_fn=<NllLossBackward>), 'loss_box_reg': tensor(nan, device='cuda:0', grad_fn=<DivBackward0>), 'loss_objectness': tensor(nan, device='cuda:0', grad_fn=<BinaryCrossEntropyWithLogitsBackward>), 'loss_rpn_box_reg': tensor(nan, device='cuda:0', grad_fn=<DivBackward0>)}
这个问题代表模型发散(loss=nan)
解决办法:
1.尝试用CPU训练,如果正常,则为cuda环境问题,如果不正常,则为标注问题,采用labelimg标注图片;
2.如果cuda为11,则尝试将cuda版本改为10
一、查看自己的电脑配置
1.CPU
图中也有显示内存为7.8g
2.GPU
3.pcie
下载adia64,打开后,如下图操作
4.电源接口查看
二.选型了解
三、2021年显卡选购
注意:
购买时需要注意三点:与主板是否兼容(即pcie),和电源是否匹配(通过工作站型号上网查询电源功率或者将工作站拆开查看电源功率),散热问题