网络结构
这里默认 3 ∗ 3 3*3 3∗3个anchor,图中标出以输入为672*640
大小时,每层对应的尺度,以及每层对应anchor个数和每个特征层base anchor对应到原图的anchor大小.
边界框回归
在faster rcnn 中存在3个框,其中anchor, ground truth为已知固定的框, predict 为预测框
其中:
A n c h o r : ( A x , A y , A w , A h ) Anchor :(A_x,A_y,A_w,A_h) Anchor:(Ax,Ay,Aw,Ah)
P r e d i c t : ( P x , P y , P w , P h ) Predict :(P_x,P_y,P_w,P_h) Predict:(Px,Py,Pw,Ph)
G r o u n d T r u t h : ( G x , G y , G w , G h ) GroundTruth :(G_x,G_y,G_w,G_h) GroundTruth:(Gx,Gy,Gw,Gh)
目标:
边界框回归的目的即寻找一个 F F F,使得
F ( A x , A y , A w , A h ) = ( P x , P y , P w , P h ) ≈ ( G