Repulsion Loss：为解决密集人群检测中遮挡设计的损失函数

最新推荐文章于 2023-06-10 14:47:09 发布

置顶愿望是当打工人

最新推荐文章于 2023-06-10 14:47:09 发布

阅读量3.2k

点赞数 6

分类专栏： YOLOv4 文章标签：计算机视觉

转载注明出处。

本文链接：https://blog.csdn.net/weixin_40557160/article/details/116174316

版权

YOLOv4 专栏收录该内容

21 篇文章 2 订阅

订阅专栏

最近终于实现了darknet（yolov4）与repulsion的结合。但是结果奇差无比。仔细阅读论文，发现repulsion loss基本上是为了提升数据集的指标而设计的。实际中很难应用，并且局限于两阶段检测器（个人猜想。）

题目：Repulsion Loss: Detecting Pedestrians in a Crowd
原文章地址：Repulsion Loss: Detecting Pedestrians in a Crowd

1.引言

我们来分析一下论文。

作者设计此函数的启发是由于在现实世界中行人经常聚在一起并相互遮挡，因此在人群中检测单个行人仍然是一个具有挑战性的问题。在本文中，我们首先通过实验探索最先进的行人检测器如何受到人群遮挡的伤害，从而提供有关人群遮挡问题的见解。然后，我们提出了一种专门针对人群场景设计的新颖的边界框回归损失，称为排斥力。这种损失是由两个动机驱动的：目标的吸引和周围其他物体的排斥。排斥词可防止提案转移到周围的物体上，从而导致人群拥挤的本地化。经过排斥损失训练的我们的探测器性能优于最新方法，在遮挡情况方面有显着改善。

在标准边界框回归损失中，当预测框移动到周围对象时，没有其他惩罚。这种观察使我们想知道，如果我们想在人群中检测目标，是否可以考虑其周围物体的位置？
whether the locations of its surrounding objects could be taken into account if we want to detect a target in a crowd?

2.Repulsion loss

Reulsion loss完整公式如下：

在这里插入图片描述

分为三部分。
第一部分为预测框与真实目标框所产生的损失值（attraction term）；第二部分为预测框与相邻真实目标框所产生的损失值（repulsion term(RepGT)）;第三部分为预测框与相邻不是预测同一真实目标的预测框所产生的损失值（repulsion Box(RepBox))。通过两个相关系数alpha和beta来平衡两部分repulsion损失值。

（1）Attraction term:
在这里插入图片描述

目的使预测框与真实目标框更加接近，沿用 Smooth_L1 构造吸引项。给定一个 proposal P ∈ P_+（所有的正样本），为每个proposal匹配一个与之有最大IoU值的真实目标框：
在这里插入图片描述

这个Grep对应YOLOv4中的cell中三个锚框中具有最大IoU的那个anchor box。这一部分不需要加入YOLOv4

（2）Repulsion Term(RepGT):
在这里插入图片描述

目的使预测框远离与之相邻的真实目标框。（没有实际意义，因为密集人群数据集中的人存在大量的遮挡，所以真实目标框会相邻，但这是一种假定预测框一定会与真实目标框相邻的情况，即只针对论文中的数据集有效）

（3）Repulsion Term(RepBox):
在这里插入图片描述

3.我的分析

损失函数的第三部分的目的是，使预测框远离相邻不是预测同一真实目标的预测框。很绕口。简单理解，就是让A目标的预测框远离B目标的预测框。因为当两个GT（ground truth）框离得很近的时候，必定会在此位置产生不同的预测框，如果没有这部分，通常都会将两个人检测成一个人。但是现在基本都是通过NMS来保留一个或几个得分较高的预测框。

这意味着：这一步是必须已经得出确定的预测框或者建议框才能进行。

官方选用的是fast-rcnn，两阶段检测器，先生成一堆建议框，然后再用repulsion loss训练。如果用fast-rcnn，我觉得是可以实现的。因为两阶段检测器先生成一堆建议框，repulsion loss直接插在RPN网络后，对RPN网络生成的建议框计算loss，这样应该是可以的。对每一个目标都会生成一堆框。对这些框去训练损失函数。
正如原论文中所展示的这种：
在这里插入图片描述