参考,评论也重要
目标检测不但要图像识别还要找出其位置,位置是通过bbox确定的,那么bbox是怎么找到的?
很多论文只是简单带过通过线性回归器来进行边框回归确定边界框位置,实际上是通过x,y,w,h(即中心坐标和宽高)确定bbox,输入是真实x,y,w,h和候选框,输出的是预测框,损失函数是通过p和t确定的。
预测值(中心坐标和宽高)由d和真实值(中心坐标和宽高)决定
G^x=Pwdx§+Px,(1)
G^y=Phdy§+Py,(2)
G^w=Pwexp(dw§),(3)
G^h=Phexp(dh§),(4)
t由(6)到(9)式决定,坐标除了宽高应该是为了归一化,避免不同尺度目标带来的影响,宽高log化应该也是同一目的
tx=(Gx−Px)/Pw,(6)
ty=(Gy−Py)/Ph,(7)
tw=log(Gw/Pw),(8)
th=log(Gh/Ph),(9)
损失函数为MSE:
Loss=∑iN(ti∗−w^T∗ϕ5(Pi))2
函数优化目标为:
W∗=argminw∗∑iN(ti∗−wT∗ϕ5(Pi))2+λ||w∗||2
深度学习学习笔记——RCNN中的边框回归问题
最新推荐文章于 2023-11-13 11:56:16 发布