极简笔记 Pyramid Attention Network for Semantic Segmentation
本文核心提出PAN,提出Feature Pyramid Attention module(FPA)和Global Attention Upsample module(GAU),引入注意力机制用于语义分割。
文章认为现有分割ASPP模型会导致grid artifact;以及pyramid pooling module会很大程度丢失像素位置信息。因此考虑不使用atrous形式,同时通过用金字塔结构学习注意力mask而不是直接对feature map进行学习,从而保持像素级别的位置信息。FPA结构如图,一个分支用pyramid结构预测attention mask,另外再加一个global pooling branch。值得吐槽的是配图画的真丑,我真的没有从配图中看出来下采样使用pooling还是用stride=2的形式实现的,以及每个尺度上的卷积是做两次nxn还是一次nxn。还有global pooling branch后面原文写着和之前的feature进行concatenate,在图里又变成了+,这种说话说一半,前后不一致的现象,极度影响阅读体验!要不是看在sota的份上我就不看了!