Single Bounding Box Regression

输入输出

Bounding Box Regressor 训练过程的输入由两部分组成:

  • data:原图或其feature
  • label: ground truth bounding box.

regression输出为一组可以确定 n 个bounding box的数值. 数值涵义由label决定.
本文讨论n=1的情况, 即Single box regression: 一张图片回归一个bounding box.

典型的应用出现在RCNN: Proposal太大时, 需要缩小范围以更精确的框出目标物体. 它的regressor的输入为一个proposal region, 输出为一个bounding box.

一个region由一个四维向量表示: P=(Px,Py,W,H) , 其中, (Px,Py) 为中心点的位置(RCNN)或左上角的位置(Fast RCNN), (W,H) 为它的宽和高. 它对应的bbox ground truth由 G=(Gx,Gy,Gw,Gh) 表示, 各参数的涵义与 P 类似.

L2 Loss

f(P)表示regressor的输出, 最简单粗暴的loss可以表示为:

L=(f(P)G)2

其中, 代表x,y,w,h, 整个loss : L=Lx+Ly+Lw+Lh .
也就是说直接预测bbox的绝对坐标与绝对长度. 但是这样会出现一个问题: loss的大小会受到图片大小的影响, 不大合理. 例如, 当ground truth 分别为 (100,100,200,200) , (10,10,20,20) 时, 假如分别得到 (90,90,200,200) , (8,8,20,20) 的bbox预测值. 那么前者对应的loss会远大于后者, 但是从实际情况上来看, 10090100=0.1,10810=0.2 , 前者的相对误差要小于后者. 所以需要一个规范化(normalization)处理. 若在loss上规范化:
Lx=(fx(P)Gx)W)2

Ly=(fy(P)Gy)H)2

Lw=(fw(P)Gw)W)2

Lh=(fh(P)Gh)H)2

其中, W,H 分别为输入图片的宽与高.
这样loss是不受绝对大小的影响了, 但是还有一个问题: f(P) 直接输出了绝对距离, 这种输出值是没有上下限的. 目测会让训练过程的收敛变得困难甚至不可能.(个人推测, 未验证/考证.). 另外, 学习速率的选择也会变得困难. 所以, 规范化操作要在label上进行. 即, 将回归目标规范化, 例如RCNN中使用的target为:
这里写图片描述
这样回归出来的就是bbox在图片上的相对位置, 各个位置参数的值都是在0到1之间. 比较特殊的是 w,h 的regression targets使用了log space. 师兄指点说这是为了降低 w,h 产生的loss的数量级, 让它在loss里占的比重小些, 不至于因为 w,h 的loss太大而让 x,y 产生的loss无用. 因为若是 x,y 没预测准确, w,h 再准确也没有用.
若使用MLP进行回归, 那输出层的激活函数是identity, 即 f(P)=WTΦ(P) , 其中, W 为权重矩阵, Φ(P)为proposal P的特征向量.

Smooth L1 Loss

当预测值与目标值相差很大时, 梯度容易爆炸, 因为梯度里包含了 xt . 所以rgb在Fast RCNN里提出了SmoothL1Loss.
这里写图片描述
当差值太大时, 原先L2梯度里的 xt 被替换成了 ±1 , 这样就避免了梯度爆炸, 也就是它更加健壮.

Fast-RCNN为了使用SmoothL1Loss定义了一个新的layer, 它的实现更general:

xi=win(tivi),i{x,y,w,h}

smoothL1={0.5x2σ2,|x|0.5σ2,|xσ|<1otherwise

SmoothL1Loss=wouti{x,y,w,h}smoothL1(xi)

  • win 可用于指定哪些regression结果参与loss的计算(Fast RCNN里的λ[u ≥ 1], Faster RCNN里的 P ).
  • wout 可用于normalization.
阅读终点,创作起航,您可以撰写心得或摘录文章要点写篇博文。去创作
  • 8
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
Siou Loss是一种用于边界框回归的损失函数,它比传统的平方损失函数更强大。 边界框回归是目标检测任务中的重要组成部分,它的目标是预测图像中物体的位置和大小。传统的平方损失函数在边界框回归中常被使用,但它在处理物体尺寸变化和不均衡数据上存在一些问题。而Siou Loss通过解决这些问题,提供了更强大的学习能力。 Siou Loss通过引入IoU(Intersection over Union)来度量预测边界框和真实边界框之间的相似度。IoU是指预测边界框和真实边界框的交集区域与并集区域的比值,它能更好地描述边界框的匹配度。 Siou Loss不仅考虑了预测边界框和真实边界框之间的位置差异,还考虑了它们之间的尺度差异。这使得Siou Loss在处理物体尺寸变化时更加灵活,能够更好地适应不同尺寸的物体。 此外,Siou Loss还能够解决数据不均衡的问题。在目标检测任务中,负样本(非物体区域)通常远远多于正样本(物体区域),这导致传统的平方损失函数在训练过程中很难平衡正负样本之间的关系。而Siou Loss通过IoU作为权重,可以有效地平衡正负样本之间的重要性,提高了模型对于正样本的关注程度。 综上所述,Siou Loss作为一种更为强大的学习方法,在边界框回归任务中具有优势。它通过引入IoU来度量相似度,并解决了尺度变化和数据不均衡的问题,提高了模型的学习能力和预测准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Daniel2333

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值