ssd这篇感觉很工程,主要的工作我觉得有两个:
1.从多层fm上提取bbox,相当于一个multi scale的操作。值得注意的是,首先越靠近bottom越底层的fm在细节表达上做得越好,高层的fm会学习出分类这种概括性的表达,原文中加上最高层的bbox甚至会比去掉这一层效果更差(当然可能是噪声);其次在fm上的bbox并不是严格去对应原图上的reception filed(再加上后面data augmentation工作,我的理解是目标框并不需要一个严格的标注标准比如严格相切之类),对应的关系有公式给出:
sk是第k层(原文总共有6层)提取bbox的fm与原图的尺度比例,这里smin=0.2,smax=0.9,这个定义涉及到default bbox的对应区域,是一个开放性的问题,可以根据自己的实际需求去重新定义。然后对于