全景分割文章贡献总结(二)
阅读两篇全景分割文献《Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation》,《An End-to-End Network for Panoptic Segmentation》。
文章目录
《Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation》
论文:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123490103.pdf
源代码:https://github.com/csrhddlam/axial-deeplab
主要贡献
文章主要贡献如下:
- 首次尝试利用大的感受野或全局感受野来建立stand-alone 注意力机制的模型;
- 提出了位置敏感的注意力层,在不增加计算成本的基础上更好的利用位置信息;
- 实验验证轴向的注意力机制除了可以作为图像分类问题的stand-alone模型,还可以作为实例分割,全景分割等问题的backbone;
- 将Axial-attention运用在Panoptic-DeepLab,在COCO, Vistas, Cityscapes分别进行验证。
创新思想
文章中的两个主要思想,Stand-Alone是指在原有的self-attention机制中,对于每一个位置,额外提取一个局部m*m的平方域作为计算输出 y o y_o yo的存储库,允许自我注意模块部署为独立的(stand-alone)的层。Axial-Attention将2D的self-attention约束因式分解成两个1D的self-attention,允许在更大的区域内执行attention机制并且不增加计算量。
《An End-to-End Network for Panoptic Segmentation》
主要贡献
- 将FPN结构作为端到端网络的Backbone,在实例分割分支中使用原始Mask R-CNN模型,采用自上而下的路径以及横向连接得到特征图,然后使用一个3X3大小的卷积层以获得RPN特征图,而后使用RoI Align提取特征,产生三个预测值。Stuff segmentation分支,对于RPN之后得到的特征图添加两个3X3大小的卷积以及一个1X1的卷积。Instance segmentation分支,采用的Mask R-cnn模型。
- 采用了Spatial ranking module处理重叠问题。
- 首先将实例分割的结果映射到输入大小的张量。特征映射的维度等于对象类别。将不同类别的实例引射到对应的通道。实例张量的初始值为0,映射值则为1。在张量之后采用大的卷积核以产生排序得分图。最后使用像素级的交叉熵损失函数优化排序得分图。
其中 S m a p S_{map} Smap为输出的得分图, S l a b e l S_{label} Slabel为相应的无重叠的语义标签。对于得到的排序分数图,按如下公式计算每个实例对象的排名分数。
其中, S i , j , c l s S_{i,j,cls} Si,j,cls是标准化后的概率分布,代表某一类cls在(i, j)上的排序得分, m i , j m_{i,j} mi,j表示如果(i, j)属于某一实例。
总结
本文对两篇全景分割文章《Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation》,《An End-to-End Network for Panoptic Segmentation》总结了主要工作和突出贡献。