今天我给大家介绍的是Face++2018发表的一篇关于图像分割的论文《Pyramid Attention Network
for Semantic Segmentation 》,这篇论文属于Attention系列,介绍了结合金字塔的Attention网络,论文中多次讲到了本方法和现有一些分割方法的不同,确实存在创新,可以在下面的介绍详细看。
总的来说,论文是将Attention机制与金字塔结构结合作为本文的亮点,这样可以在高层语义指导的基础上来提取相对与较低层的精确的密集特征,取代了其他方法里面的复杂的空洞卷积dilated和多个编码解码器的操作,跳出了以往常常用到的U-Net结构;再者,另一个亮点与Global average pooling类似的操作,采用了一个全局pooling进行底层特征的权值加权,对特征的map起到的选取的作用。在上面两步的结合下论文展示的结果是在PASCAL VOC 2012和Cityscapes基准测试中实现了最先进的性能,没有COCO预训练的情况下,PASCAL VOC 2012的mIoU精度为84.0%,而没有COCO数据集的培训。
论文的结构主要如下: