【论文笔记】:UnitBox

Title

Abstract

传统的目标框含有四个独立的坐标变量,丢失了相互之间的信息,导致AP下降

Unit Box 提出了一种新的 IoU 损失函数,将四个变量作为一个整体预测

Introuductin

Faster RCnn 依赖于预先设计好的anchor,对小目标无能为力

DenseBox 不能对目标框四个变量进行联合预测,需要在图像金字塔上预测,效率低

本文提出UnitBox,使用全卷积网络,精度更高,速度更快

使用了L2_Loss,这也就意味着把四个坐标当成了独立变量,这显然是与实际不符的,这也是为什么框不准的原因。
因此为了方便灵活灵活地处理各种角度的目标,作者提出了一种新的IOU_Loss,将四个回归值当做一个整体来处理,不仅提高了准确率而且加速了收敛。

Iou Loss Layer & L2 Loss layer

L2 Loss

L2 将坐标信息作为独立变量预测,违背了坐标信息之间是高度相关的事实,其次,L2 没有归一化,所以对小的值不敏感,如果使用图像金字塔会降低效率

L2 Loss可以看做是欧氏距离,很明显这里面四个坐标是被当做独立变量来优化的。这可能导致下面的问题:
在这里插入图片描述
左边的人脸框明显比右边的要准一点,但是脸太大,则导致loss最终反而比右边的大,然后我们就去惩罚这个loss,结果最后检测器对小人脸效果就不好了。

noval IOU Loss

在这里插入图片描述
IOU Loss的目的就是使重叠区域越大越好。

NETWORK

在这里插入图片描述
使用VGG-16模型finetune,只不过去掉了全连接层,然后又搞成了带有两个分支的全卷积网络:一个分支是pixel级别的bounding box差值坐标,一个是分类得分。

训练时有三个输入:原图,置信度热图,边界框热图

  • 分类分支:VGG16 stage -4 末尾 + conv(512 * 3 * 3 * 1) + upsample layer
    (上采样到原图大小) + crop layer(将特征图定位到原图的位置),得到单通道的,与原图大小相同的特征图,使用sigmod交叉熵损失在其上生成置信热图
  • 回归分支:VGG16 stage-5 末尾 + conv(512 * 3 * 3 * 4) + upsample layer (上采样到原图大小) + crop layer(将特征图定位到原图的位置) ,此外加入ReLU layer 使得输出非负。预测出的边界框坐标被IoU Loss联合优化。
  • 回归分支在stage5 因为边界框预测需要更大的感受野。
  • 只用了一层卷积层来输出边界框预测,提高了效率
  • 在阈值化处理后的置信度热图上用椭圆来拟合人脸
如何最终定位人脸:

选定一定阈值,用一个椭圆在分类得分图上框出一个人脸,,然后选择中心坐标,找到其对应的bounding box。

EXPERIMENTS

Effectiveness of IoU Loss

IOU Loss 比 L2 Loss 收敛更快,精度更高,对多尺度的检测效果鲁棒性更好。速度快,12FPS
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值