Title
Abstract
传统的目标框含有四个独立的坐标变量,丢失了相互之间的信息,导致AP下降
Unit Box 提出了一种新的 IoU 损失函数,将四个变量作为一个整体预测
Introuductin
Faster RCnn 依赖于预先设计好的anchor,对小目标无能为力
DenseBox 不能对目标框四个变量进行联合预测,需要在图像金字塔上预测,效率低
本文提出UnitBox,使用全卷积网络,精度更高,速度更快
使用了L2_Loss,这也就意味着把四个坐标当成了独立变量,这显然是与实际不符的,这也是为什么框不准的原因。
因此为了方便灵活灵活地处理各种角度的目标,作者提出了一种新的IOU_Loss,将四个回归值当做一个整体来处理,不仅提高了准确率而且加速了收敛。
Iou Loss Layer & L2 Loss layer
L2 将坐标信息作为独立变量预测,违背了坐标信息之间是高度相关的事实,其次,L2 没有归一化,所以对小的值不敏感,如果使用图像金字塔会降低效率
L2 Loss可以看做是欧氏距离,很明显这里面四个坐标是被当做独立变量来优化的。这可能导致下面的问题:
左边的人脸框明显比右边的要准一点,但是脸太大,则导致loss最终反而比右边的大,然后我们就去惩罚这个loss,结果最后检测器对小人脸效果就不好了。
IOU Loss的目的就是使重叠区域越大越好。
NETWORK
使用VGG-16模型finetune,只不过去掉了全连接层,然后又搞成了带有两个分支的全卷积网络:一个分支是pixel级别的bounding box差值坐标,一个是分类得分。
训练时有三个输入:原图,置信度热图,边界框热图
- 分类分支:VGG16 stage -4 末尾 + conv(512 * 3 * 3 * 1) + upsample layer
(上采样到原图大小) + crop layer(将特征图定位到原图的位置),得到单通道的,与原图大小相同的特征图,使用sigmod交叉熵损失在其上生成置信热图 - 回归分支:VGG16 stage-5 末尾 + conv(512 * 3 * 3 * 4) + upsample layer (上采样到原图大小) + crop layer(将特征图定位到原图的位置) ,此外加入ReLU layer 使得输出非负。预测出的边界框坐标被IoU Loss联合优化。
- 回归分支在stage5 因为边界框预测需要更大的感受野。
- 只用了一层卷积层来输出边界框预测,提高了效率
- 在阈值化处理后的置信度热图上用椭圆来拟合人脸
选定一定阈值,用一个椭圆在分类得分图上框出一个人脸,,然后选择中心坐标,找到其对应的bounding box。
EXPERIMENTS
IOU Loss 比 L2 Loss 收敛更快,精度更高,对多尺度的检测效果鲁棒性更好。速度快,12FPS