目标检测出现loss为Nan的情况分析

最新推荐文章于 2024-06-25 10:34:32 发布

gbyy42299

最新推荐文章于 2024-06-25 10:34:32 发布

阅读量2.9k

点赞数 1

本文链接：https://blog.csdn.net/gbyy42299/article/details/103525831

版权

在训练检测网络，比如faster rcnn等时，有时候会出现loss=Nan的情况，根据自己的调参经验总结一下。

个人发现的可能情况如下几种：

在lib下的setup.py脚本中找到对应的地方，根据https://arnon.dk/matching-sm-architectures-arch-and-gencode-for-various-nvidia-cards/ 改成符合自己GPU的arch构架。

如果你自己制作了voc pascal或者coco数据集格式，那么你需要注意，看看是否有类似下面的报错

RuntimeWarning: invalid value encountered in log targets_dw = np.log(gt_widths / ex_widths)

这种报错说明数据集的数据有一些问题，多出现在没有控制好边界的情况，首先，打开lib/database/pascal_voc.py文件，找到208行，将208行至211行每一行后面的-1删除，如下所示：

x1 = float(bbox.find(‘xmin’).text)
y1 = float(bbox.find(‘ymin’).text)
x2 = float(bbox.find(‘xmax’).text)
y2 = float(bbox.find(‘ymax’).text)

原因是因为我们制作的xml文件中有些框的坐标是从左上角开始的，也就是（0,0）如果再减一就会出现log（-1）的情况

如果这样之后还是出现类似的报错，那么说明依然有-1或者其他负数的情况出现。解决方法是打开./lib/model/config.py文件，找到flipp选项，将其置为False

__C.TRAIN.USE_FLIPPED = False

a、可以尝试适当地减小learning rate，每次减小10倍，如果重复一定次数后仍没有改善，那么则需要判断是不是其他问题；
b、增加warm up操作。

关注