优化:与之前two-stage对比,取消了候选窗口生成、不用特征重采样。
特征图:基于vgg16的backbone,前面5个大的卷积层,后面f6/fc7也改成3*3和1*1卷积层,然后增加了(1*1&3*3配对的)四个卷积层,共11层,在4/7/8/9/10/11层上设置anchor,定位和预测(这点类似于早期的FPN,但没有特征叠加)
定位方法:每个特征层上,计算当前多少个anchor,多少个size,就得到输出多少个定位框(比如N),则位置是N*4个滤波器,置信度是N*n个滤波器,全图3*3卷积即可
loss采用交叉熵和L1-smooth叠加方式。