「Computer Vision」Notes on IoU-Net

最新推荐文章于 2022-11-02 19:20:03 发布

小锋子Shawn

最新推荐文章于 2022-11-02 19:20:03 发布

阅读量343

点赞数

文章标签：小锋子

本文链接：https://blog.csdn.net/dgyuanshaofeng/article/details/81417221

版权

Sina Weibo：小锋子Shawn
Tencent E-mail：403568338@qq.com
http://blog.csdn.net/dgyuanshaofeng/article/details/81417221

0 摘要

类别标签的概率反应了分类置信度，而定位置信度则无法反应。因此，提出IoU-Net。在MS-COCO上进行了验证。

1 介绍

定位置信度“缺失”的两个缺点。如图1所示，第一，分类分数高的包围盒，与真实包围盒的重叠（overlap）可能会很小，产生“劣币驱逐良币”效应，概括为分类置信度和定位准确度直接的不匹配；第二，包围盒回归可能越来越差，概括为非单调包围盒回归。
文章提出，1、在NMS过程，利用IoU进行ranking，即IoU-guided NMS；2、利用Precise RoI Pooling layer，基于优化包围盒优化取代基于回归包围盒优化。
在这里插入图片描述

图 1

2 深入目标定位

2.1 分类和定位的不匹配性

2.2 包围盒回归的非单调性

3 交并比网络

3.1 学习预测IoU

如图5所示。IoU预测器（指虚线框中2层FC）拿FPN的输出视觉特征，给每一个检测框估计IoU/定位准确性。
在这里插入图片描述

图 5

3.2 IoU引导的NMS

利用IoU引导的NMS解决分类置信度和定位准确性的失配（misalignment），其中上述两者将被解混（disentangled）。像传统NMS一样，某个检测框具有最高的交并比，将被选择去消除其它检测框，这些检测框的overlap大于给定的阈值 $\Omega_{nms}$ 。为了决定分类得分/置信度，检测框 $i$ 消除检测框 $j$ ，检测框 $i$ 的置信度 $s_{i}$ 将更新为 $s_{i}=max(s_{i}, s_{j})$ ，即两者之间的较大者。如图6所示，为上述过程的伪代码算法。IoU引导的NMS好于传统NMS和Soft-NMS[2]。
在这里插入图片描述

图 6

3.3 包围盒优化是一个优化过程

包围盒优化利用数学语言表达为，寻找下式最优值：
$c^{*}=\arg \max_{c} crit(transform(box_{det},c), box_{gt}) \ \ \ \ \ (1)$ ，其中 $box_{det}$ 表示检测/预测包围盒， $box_{gt}$ 表示目标/真实包围盒，transform表示接受参数 $c$ 的包围盒变换函数。crit表示测量两包围盒的距离/相似性。在Fast R-CNN中，crit表示在对数尺度下坐标的smooth-L1距离。在Unitbox中，crit表示IoU得分/IoU损失。
IoU-Net直接估计两包围盒的IoU得分。文章[1]提出的Precise RoI Pooling（精确RoI池化）可计算IoU对包围盒坐标的梯度，因此利用梯度下降法寻找上述(1)式的解，过程如图7所示。
在这里插入图片描述