Bounding Box Regression

这篇博客主要讲解为什么可以用线性模型去做Bounding Box Regression,在讲解之前先明确几个先决条件:
(1)Bounding Box由包含四个参数的坐标组成,即
在这里插入图片描述
其中Gx,Gy表示Bounding Box的中心点横纵坐标,Gw,Gh分别表示Bounding Box的宽与高。
(2)回归过程涉及到三个坐标
    I. ground-truth bounding box G.
    II. predicted ground-truth box G.
    III. proposal P bounding box.

1. Original Paper

在这里插入图片描述

2. Bounding Box Regression

如Sec. 1.中提到的,we only learn from a proposal P if it is nearby at least one ground-truth box. 如果不是正例标注框附近的region proposal,那么这样的边界框映射是没有必要的,而附近这个近的程度作者是用IoU定义的。
下面以一个具体的图体会一下:
在这里插入图片描述
绿框代表Ground-truth box,红框代表Region Proposal。Bounding Box Regression的目的是让红框 P 进行一定的变换尽量靠近绿框G,用尽量一词是因为不可能实现完全重合,所以只能得到一个靠近的结果G,但相比于P肯定是更准确的。设想一下,笨笨的算法看到红框就想往绿框变换,显然将上图中dog1的红框朝着dog2的绿框去变换是没有道理的,所以作者通过IoU限制了这个笨笨的想法。


那么为什么可以用线性回归模型实现这种变换呢?
在这里插入图片描述
从上图可以发现最完美的变换应该是右边的t*,这个变换使得GG重合,即完全正确定位,但显然这是小概率事件,因此我们需要一个优化目标。
定义一个对P的变换为:
在这里插入图片描述
我们优化的目标就是希望这个定义的变换与完美变换t* 尽量相近,于是得出优化目标:
在这里插入图片描述
其中,式子第二部分表示模型复杂度正则,作者在论文中也对此作了说明。
tx, ty对P是线性变换可以理解,但 tw, th明明是log变换,为什么也可以进行线性变换呢?

在这里插入图片描述

有人说,根据从上面分析只要保证Region Proposal和Ground Truth的宽高相差不多就能满足回归条件,对x,y位置倒没有太多限制。但我认为这个说法不对,就像上面说的,你得通过x,y位置确定对应的是同一个object。这也是论文在这设置IoU的原因。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值