目标检测出现loss为Nan的情况分析

背景

在训练检测网络,比如faster rcnn等时,有时候会出现loss=Nan的情况,根据自己的调参经验总结一下。

可能情况

个人发现的可能情况如下几种:

1、编译的时候gpu arch设置有问题,导致编译后的包有问题。

在lib下的setup.py脚本中找到对应的地方,根据https://arnon.dk/matching-sm-architectures-arch-and-gencode-for-various-nvidia-cards/ 改成符合自己GPU的arch构架。

2、自己制作的数据集有问题。

如果你自己制作了voc pascal或者coco数据集格式,那么你需要注意,看看是否有类似下面的报错

RuntimeWarning: invalid value encountered in log targets_dw = np.log(gt_widths / ex_widths)

这种报错说明数据集的数据有一些问题,多出现在没有控制好边界的情况,首先,打开lib/database/pascal_voc.py文件,找到208行,将208行至211行每一行后面的-1删除,如下所示:

x1 = float(bbox.find(‘xmin’).text)
y1 = float(bbox.find(‘ymin’).text)
x2 = float(bbox.find(‘xmax’).text)
y2 = float(bbox.find(‘ymax’).text)

原因是因为我们制作的xml文件中有些框的坐标是从左上角开始的,也就是(0,0)如果再减一就会出现log(-1)的情况

如果这样之后还是出现类似的报错,那么说明依然有-1或者其他负数的情况出现。解决方法是打开./lib/model/config.py文件,找到flipp选项,将其置为False

__C.TRAIN.USE_FLIPPED = False
3、如果确认可数据集没有问题,那么可能就是模型的调参问题了。

a、可以尝试适当地减小learning rate,每次减小10倍,如果重复一定次数后仍没有改善,那么则需要判断是不是其他问题;
b、增加warm up操作。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值