目前,主流的目标检测算法大都需要经过人工设计的标签分配和NMS后处理,使之不能实现完全端到端的目标检测。那么,如何才能在全卷积神经网络上实现完全的端到端目标检测呢?针对这一问题,本文从两个维度作出了解答。一是提出了prediction-aware one-to-one assignment(POTO)标签分配策略,同时根据分类和回归的质量动态分配正负样本。二是提出3D Max Filtering (3DMF),利用多尺度特征提高卷积在局部区域的鉴别能力。
1. 研究背景
非极大值抑制(Non-Maximum Suppression,NMS),顾名思义就是抑制不是极大值的元素,用于目标检测中,就是提取置信度高的目标检测框,而抑制置信度低的误检框。
目前,主流的目标检测算法大都会用到NMS,特别是基于锚点框的目标检测算法。用在当解析模型输出到目标框时,目标框会非常多,具体数量由锚点框的数量决定,其中有很多重复的框定位到同一个目标,NMS用来去除这些重复的框,获得真正的目标框。如上图所示,人、马、车上有很多框,通过NMS,得到唯一的检测框。
2. 问题提出
由以上分析可以看出,NMS是一个“one-to-many”标签分配策略,一个真实的边界框对应多个预测框。在这种机制下,一方面,要设置尽可能多的预测框来增加网络的鲁棒性;另一方面,过多的预测框引起了更多的重复样本。对此,很多研究学者做出了一些改进,但效果并不是很好。
其实,要实现完全的端到端目标检测,解决方法也很简单。就是要抛弃传统的NMS,让一个真实框只生成一个预测框,也就是“one-to-one”标签分配策略。
3. 研究方法
为了实现“one-to-one”的标签分配策略,本文提出的方法的两个关键是:POTO和3DMF。得到的模型整体框架如下:<