SSD 采用 6 个尺寸的特征图独立的预测目标,并没有融合不同特征图所蕴含的信息。目前,许多研究表明,底层高分辨率的特征图蕴含着目标的一些细节信息,这些信息有利于准确的定位目标。但是,由于底层的特征图进行的卷积运算较少,未能提取足够多的高级特征,语义信息不足,这不利于区分目标和背景。高层低分辨的特征图经历了大量的卷积运算,能够提取丰富的语义信息,但是由于下采样过多,导致丢失大量的细节信息。
Google TDM、DSSD和FPN的Top Down网络结构,在特征图特征融合的步骤中,他们用了不同的方法:
Google TDM使用的是concat操作,让浅层和深层的特征图叠在一起。(通道合并)
DSSD使用的是Eltw Product(也叫broadcast mul)操作,将浅层和深层的特征图在对应的通道上做乘法运算。