v3输出三种规格的特征图分别用来检测大中小物体,这里对v2中的融合进行了改进,让分类任务做的更好。
对每一规格的特征图来说都会产生三种候选框。
但不同规格的特征图并不是通过分别在CNN网络中直接输出获得的,因为那样一开始输出的52x52和中间输出的26x26特征图所提取的特征都不够完全。这里作者是用最后13x13的特征图通过某些方法与前面26x26进行特征融合,从而使得特征提取的更加完善。这里作者采用的是进行上采样的一个方法,使得得到的13x13的特征图经上采样后变成26x26的特征图,然后再与26x26的特征图进行融合,得到26x26的特征图输出同样的方法也得到了52x52的输出。
v3版本还加入