解决yolov5 使用GTX 1660 Ti训练时出现NAN的问题
yolov5训练时, box obj cls 为 nan,P R mAP@.5 mAP@.5:.95为 0 的问题。PyTorch版本与CUDA版本不匹配,导致(float16)数据类型在卷积等一些运算的时候会出现nan值。效果:训练时间从03: 40增加到06: 11,但显存增加了很多,考虑到显存可能不够的原因,决定换解决办法。修改train.py,不使用自动混合精度(amp),以及半精度浮点型数据改为单精度的浮点型运算。效果:训练时间比方法一略久一点,但显存是方法一的一半。
原创
2023-11-17 19:19:09 ·
1220 阅读 ·
1 评论