论文:HIERARCHICAL MULTI-SCALE ATTENTION FOR SEMANTIC SEGMENTATION
作者:Andrew Tao Karan Sapra Bryan Catanzaro
单位:Nvidia
这是一篇来自CVPR2020的论文。在本文中,作者提出一种基于attention的方法来结合多尺度预测。文章的attention机制是多层级的,使其能够减少四倍的内存占用。除了能使训练的速度更快,而且能够训练一些更大的内存图像,而且精度更高。实验在Cityscapes和 Mapillary Vistas两个数据集上进行了验证。对于Cityscapes,有很多简易标注的图像,文章利用自动标注来改善了这个问题,达到SOTA,在Cityscapes test上可达85.1% mIoU,在Mapillary val上高达61.1% mIoU。
语义分割中某些任务预测在低分辨率下得到好的结果,某些任务预测在高分辨率下得到好的结果。作者认为不同大小的物体应该使用不同分辨率的网络,大的物体应该缩小分辨率相当于扩大感受野,小的物体应该使用大分辨率,得到更多的细节。例如上图中,在0.5x scale图像对于细杆等细小物体分割效果不好,