输入输出
Bounding Box Regressor 训练过程的输入由两部分组成:
- data:原图或其feature
- label: ground truth bounding box.
regression输出为一组可以确定 n 个bounding box的数值. 数值涵义由label决定.
本文讨论
典型的应用出现在RCNN: Proposal太大时, 需要缩小范围以更精确的框出目标物体. 它的regressor的输入为一个proposal region, 输出为一个bounding box.
一个region由一个四维向量表示: P=(Px,Py,W,H) , 其中, (Px,Py) 为中心点的位置(RCNN)或左上角的位置(Fast RCNN), (W,H) 为它的宽和高. 它对应的bbox ground truth由 G=(Gx,Gy,Gw,Gh) 表示, 各参数的涵义与 P 类似.
L2 Loss
用
L∗=(f∗(P)−G∗)2
其中, ∗ 代表