这周看了2022年CVPR的一篇关于图像分割的论文
文章地址:http://arxiv.org/abs/2203.02891
作者的思路可以在这张图上看出来,(a)传统的VIT网络只输入一个class token,输出的这个红蓝点矩阵实际上是softmax(q*k^T),输出的图像虽然有图像分割的意思,但是没有类别定位,就是根本不知道他是怎么定位到这个地方的。(b)是作者的思路,通过引入多个class token来引导模型生成特定于类的定位图。比如三个红点依次是人、马、草地
At2t就是输出的class and patch注意力矩阵
这张图是MCTformer-V1,上半部分就是传统的vit,就不多说了。下半部分作者取了第k次的transformer块,将class2patch的图像输出,得到特定于类的feature map,然后对于patch2patch,作者将其reshape为4d的张量用来细化特征图。
那么这是作者提出的MCTformer-V2模型,因为V1可以完美的与CAM结合,因此作者提出了V2版本,为什么兼容其实不难推导,生成的MCT attention和patchcam的维度是一样的,两者可以做到一个互补
想了解CAM的原理可以参考这篇文章:http://t.csdnimg.cn/FCemY
这是本文的结论部分:本文介绍了 MCTformer,这是一个简单而有效的基于 Transformer 的框架,用于生成特定于类的对象定位图,并在 WSSS 上取得了最先进的结果。我们表明,不同类标记的类到补丁注意力可以发现特定于类的定位信息,而补丁到补丁注意力还可以学习有效的成对亲和力来细化定位图。此外,我们证明所提出的框架可以无缝补充 CAM 机制,从而为弱监督语义分割提供高质量的伪地面实况标签。