论文笔记：Multi-class Token Transformer for Weakly Supervised Semantic Segmentation

最新推荐文章于 2024-08-25 21:41:17 发布

Philosss

最新推荐文章于 2024-08-25 21:41:17 发布

阅读量674

点赞数 16

文章标签：论文阅读 transformer 深度学习

本文链接：https://blog.csdn.net/u013708520/article/details/135030266

版权

这篇CVPR论文介绍了一种新的图像分割模型MCTformer，通过引入多类token实现类别定位。MCTformer-V2兼容CAM机制，提升了弱监督语义分割的质量。论文强调了类标记注意力和补丁注意力在定位和细化图像是如何协同工作的。

摘要由CSDN通过智能技术生成

这周看了2022年CVPR的一篇关于图像分割的论文

文章地址：http://arxiv.org/abs/2203.02891

代码：xulianuwa/MCTformer: Code for CVPR na2022 paper "Multi-Class Token Transformer for Weakly Supervised Semantic Segmentation" (github.com)

作者的思路可以在这张图上看出来，（a）传统的VIT网络只输入一个class token，输出的这个红蓝点矩阵实际上是softmax（q*k^T），输出的图像虽然有图像分割的意思，但是没有类别定位，就是根本不知道他是怎么定位到这个地方的。（b）是作者的思路，通过引入多个class token来引导模型生成特定于类的定位图。比如三个红点依次是人、马、草地

At2t就是输出的class and patch注意力矩阵

这张图是MCTformer-V1，上半部分就是传统的vit，就不多说了。下半部分作者取了第k次的transformer块，将class2patch的图像输出，得到特定于类的feature map,然后对于patch2patch，作者将其reshape为4d的张量用来细化特征图。

那么这是作者提出的MCTformer-V2模型，因为V1可以完美的与CAM结合，因此作者提出了V2版本，为什么兼容其实不难推导，生成的MCT attention和patchcam的维度是一样的，两者可以做到一个互补

想了解CAM的原理可以参考这篇文章：http://t.csdnimg.cn/FCemY

这是本文的结论部分：本文介绍了 MCTformer，这是一个简单而有效的基于 Transformer 的框架，用于生成特定于类的对象定位图，并在 WSSS 上取得了最先进的结果。我们表明，不同类标记的类到补丁注意力可以发现特定于类的定位信息，而补丁到补丁注意力还可以学习有效的成对亲和力来细化定位图。此外，我们证明所提出的框架可以无缝补充 CAM 机制，从而为弱监督语义分割提供高质量的伪地面实况标签。

Philosss

关注

16
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫