新的目标检测损失函数SIoU：速度完美超越YoloV5、YoloX

最新推荐文章于 2025-03-27 16:41:27 发布

Tom Hardy

最新推荐文章于 2025-03-27 16:41:27 发布

阅读量4.3k

点赞数 3

文章标签：算法大数据编程语言 python 计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzI2Nzg4NjA5OQ==&mid=2247512097&idx=1&sn=7d8f50f05259e361452a7fdc8cd7b143&chksm=eafafb5ddd8d724b2eeb4ff6552faed9ea69e94261cf1e194aa6d60c68d43ac4a5ab3fad2e81&scene=126&&sessionid=0

版权

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

作者丨ChaucerG

来源丨集智书童

编辑丨极市平台

论文链接：https://arxiv.org/abs/2205.12740

目标检测是计算机视觉任务的核心问题之一，其有效性在很大程度上取决于损失函数的定义。传统的目标检测损失函数依赖于边界框回归指标的聚合，例如预测框和真实框（即 GIoU、CIoU、ICIoU 等）的距离、重叠区域和纵横比。

然而，迄今为止提出和使用的方法都没有考虑到所需真实框与预测框之间不匹配的方向。这种不足导致收敛速度较慢且效率较低，因为预测框可能在训练过程中“四处游荡”并最终产生更差的模型。

在本文中，提出了一种新的损失函数 SIoU，其中考虑到所需回归之间的向量角度，重新定义了惩罚指标。应用于传统的神经网络和数据集，表明 SIoU 提高了训练的速度和推理的准确性。

在许多模拟和测试中揭示了所提出的损失函数的有效性。特别是，将 SIoU 应用于 COCO-train/COCO-val 与其他损失函数相比，提高了 +2.4% (mAP@0.5:0.95) 和 +3.6%(mAP@0.5)。

1 简介

我们都知道目标检测中损失函数（LF）的定义起着重要作用。后者作为一种惩罚措施，需要在训练期间最小化，并且理想情况下可以将勾勒出目标的预测框与相应的真实框匹配。为目标检测问题定义 LF 有不同的方法，这些方法考虑到框的以下“不匹配”指标的某种组合：框中心之间的距离、重叠区域和纵横比。

最近 Rezatofighi 等人声称Generalized IoU (GIoU) LF优于其他标准 LF 的最先进的目标检测方法。虽然这些方法对训练过程和最终结果都产生了积极影响，但作者认为仍有很大改进的空间。因此，与用于计算图像中真实框和模型预测框不匹配的惩罚的传统指标并行——即距离、形状和 IoU，本文作者建议还要考虑匹配的方向。这种添加极大地帮助了训练收敛过程和效果，因为它可以让预测框很快地移动到最近的轴，并且随后的方法只需要一个坐标 X 或 Y 的回归。简而言之，添加Angle惩罚成本有效地减少了损失的总自由度。

2 SIoU Loss

SIoU损失函数由4个Cost函数组成：

Angle cost
Distance cost
Shape cost
IoU cost

2.1 Angle cost

添加这种角度感知 LF 组件背后的想法是最大限度地减少与距离相关的“奇妙”中的变量数量。基本上，模型将尝试首先将预测带到 X 或 Y 轴（以最接近者为准），然后沿着相关轴继续接近。

如果 𝛼 ≤Π/4，收敛过程将首先最小化𝛼 ，否则最小化β：

为了首先实现这一点，以以下方式引入和定义了LF组件：

其中，

Angle cost的曲线如图2所示。

图2

2.2 Distance cost

考虑到上面定义的Angle cost，重新定义了Distance cost：

其中，

可以看出，当𝛼→0时，Distance cost的贡献大大降低。相反，𝛼越接近Π/4，Distance cost贡献越大。随着角度的增大，问题变得越来越难。因此，γ被赋予时间优先的距离值，随着角度的增加。

2.3 Shape cost

Shape cost的定义为：

其中,

𝜃 的值定义了每个数据集的Shape cost及其值是唯一的。𝜃 的值是这个等式中非常重要的一项，它控制着对Shape cost的关注程度。如果 𝜃 的值设置为 1，它将立即优化一个Shape，从而损害Shape的自由移动。为了计算 𝜃 的值，作者将遗传算法用于每个数据集，实验上 𝜃 的值接近 4，文中作者为此参数定义的范围是 2 到 6。

2.4 IoU Cost

IoU cost的定义为：其中，

其中,

2.5 SIoU Loss

最后，回归损失函数为:

总损失函数为:

其中是Focal Loss, 、分别是框和分类损失权重。为了计算、、, 使用了遗传算法。

3 实验结果

图 10 总结了不同模型与 mAP@0.5:0.95 的推理时间。显然，Scylla-Net 的 mAP 值较高，而模型推理时间远低于比较模型的推理时间。

图 10

COCO-val 上 SIoU 的 mAP 为 52.7% mAP@0.5:0.95（包括预处理、推理和后处理为 7.6ms）和 70% mAP@0.5，同时 CIoU 为分别只有 50.3% 和 66.4%。

更大的模型可以达到 57.1% mAP@0.5:0.95（12ms 包括预处理、推理和后处理）和 74.3% mAP@0.5，而其他架构如 Efficient-Det-d7x、YOLO-V4 和 YOLO-V5 可以达到mAP@0.5:0.95分别为 54.4% (153ms)、47.1% (26.3ms) 和 50.4%（使用 fp16 进行 6.1ms）。请注意，YOLO-V5x6-TTA 在 COCO-val 上可以达到约 55%，但推理时间非常慢（FP16 时约为72ms）。

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

计算机视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：