用实例激活图的稀疏集合,表示一个新目标,来高亮每个前景目标区域。再聚合高亮区域的特征,得到实例级特征,用以分类和分割。基于二分图匹配,实例激活图可以一对一的方式预测目标,因而避免了NMS的后处理。
网络结构
encoder
以resnet50做backbone为例,使用特征为[‘res3’, ‘res4’, ‘res5’]这三层,分别为1/8, 1/16, 1/32分辨率。对1/32分辨率的特征图做[1, 2, 3, 6]输出尺寸的PPM特征聚合,增大感受野。最终输出1/8分辨率,通道数为256的特征,进入到decoder部分。
decoder