论文笔记:Multi-class Token Transformer for Weakly Supervised Semantic Segmentation

这篇CVPR论文介绍了一种新的图像分割模型MCTformer,通过引入多类token实现类别定位。MCTformer-V2兼容CAM机制,提升了弱监督语义分割的质量。论文强调了类标记注意力和补丁注意力在定位和细化图像是如何协同工作的。
摘要由CSDN通过智能技术生成

这周看了2022年CVPR的一篇关于图像分割的论文

文章地址:http://arxiv.org/abs/2203.02891

代码:xulianuwa/MCTformer: Code for CVPR na2022 paper "Multi-Class Token Transformer for Weakly Supervised Semantic Segmentation" (github.com)

作者的思路可以在这张图上看出来,(a)传统的VIT网络只输入一个class token,输出的这个红蓝点矩阵实际上是softmax(q*k^T),输出的图像虽然有图像分割的意思,但是没有类别定位,就是根本不知道他是怎么定位到这个地方的。(b)是作者的思路,通过引入多个class token来引导模型生成特定于类的定位图。比如三个红点依次是人、马、草地

At2t就是输出的class and patch注意力矩阵

这张图是MCTformer-V1,上半部分就是传统的vit,就不多说了。下半部分作者取了第k次的transformer块,将class2patch的图像输出,得到特定于类的feature map,然后对于patch2patch,作者将其reshape为4d的张量用来细化特征图。

那么这是作者提出的MCTformer-V2模型,因为V1可以完美的与CAM结合,因此作者提出了V2版本,为什么兼容其实不难推导,生成的MCT attention和patchcam的维度是一样的,两者可以做到一个互补

想了解CAM的原理可以参考这篇文章:http://t.csdnimg.cn/FCemY

这是本文的结论部分:本文介绍了 MCTformer,这是一个简单而有效的基于 Transformer 的框架,用于生成特定于类的对象定位图,并在 WSSS 上取得了最先进的结果。我们表明,不同类标记的类到补丁注意力可以发现特定于类的定位信息,而补丁到补丁注意力还可以学习有效的成对亲和力来细化定位图。此外,我们证明所提出的框架可以无缝补充 CAM 机制,从而为弱监督语义分割提供高质量的伪地面实况标签。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值