ECCV 2024 | ClearCLIP：删除两个组件，可以提升语义分割性能！-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba和图像分割】交流群

添加微信号：CVer2233，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：晓飞的算法工程笔记

论文: ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference

论文地址：https://arxiv.org/abs/2407.12442
论文代码：https://github.com/mc-lan/ClearCLIP

创新点

发现两个关键因素在将CLIP适配密集视觉-语言推理中起着至关重要的作用：残差连接影响的减少以及通过自注意力机制的空间信息重组。
提出ClearCLIP，在CLIP的最后一层中进行了三项简单的修改：去除残差连接、最后一个注意力层中采用自注意力机制以及舍弃前馈网络（FFN）。这些修改旨在增强注意力输出，从而为开放词汇语义分割任务生成更清晰的表示。

内容概述

尽管大规模预训练的视觉-语言模型（VLMs），特别是CLIP在各种开放词汇任务中取得了成功，但它们在语义分割中的应用仍然面临挑战，常常产生噪声分割图，存在误分割区域。

论文仔细重新审视了CLIP的架构，并确定残差连接是降低分割质量的主要噪声源。通过对不同预训练模型中残差连接与注意力输出的统计特性进行比较分析，发现CLIP的图像-文本对比训练范式强调全局特征，而牺牲了局部可区分性，从而导致噪声分割结果。

为此，论文提出了ClearCLIP，这是一种新颖的方法，旨在分解CLIP的表示，以增强开放词汇语义分割。对最终层进行了三项简单的修改：去除残差连接、最后一个自注意力层中采用自注意力机制以及丢弃前馈网络。ClearCLIP可以一致地产生更清晰、更准确的分割图，并在多个基准测试中超过现有方法。

ClearCLIP

基于ViT的CLIP模型由一系列残差注意力块组成。

舍弃残差连接

通过比较COCOStuff数据集中CLIP-B/16和CLIP-L/14模型最后一个模块的残差连接与不同注意力输出的范数来开始分析，可以很容易地观察到这两个子图的共性和差异：

共性在于mIoU曲线和的范数曲线表现出一定程度的正相关。
差异包括：1）CLIP-B/16中的范数远小于CLIP-L/14的范数；2）CLIP-B/16中的注意力修改在q-k基线之上表现出一致的改善，而CLIP-L/14中的情况则没有。

因此，当的影响（或范数）最小化时，注意力修改才是有效的。换句话说，显著削弱了CLIP在密集推断任务上的表现。

为了验证这一假设，基于CLIP-B/16使用、和进行开放词汇语义分割实验。COCOStuff数据集上的实验结果如图3所示，发现的mIoU接近于零，这表明残差连接可能对图像分割没有帮助。相反，仅使用的mIoU显著高于。图3中的可视化结果表明，CLIP的噪声分割图可以分解为一个模糊的图和一个更清晰的图。根据这些实验结果，可以初步得出结论：分割图中的噪声主要来源于残差连接。

为了进一步证明如何影响CLIP的性能，引入了一个缩放因子，使得，该因子控制相对于的相对影响。实验表明表明更大的显著提升了性能，这清楚地说明了对性能的不利影响。

最后，论文建议直接舍弃残差连接以在密集的视觉-语言推理任务中实现最佳性能。

舍弃前馈网络（`FFN`）

Transformer架构中的前馈网络（FFN）在建模数据中的关系和模式方面起着至关重要的作用，但最近的研究显示，FFN在推理过程中对图像表示的影响微乎其微。最后一个注意力模块中的FFN特征与最终分类特征的余弦角度明显更大，因此建议在密集预测任务中舍弃FFN。

在应用于基础CLIP模型时，论文发现移除FFN对开放词汇语义分割任务的影响较小。但当与去除残差连接相结合时，舍弃FFN会导致结果的改善，特别是在模型规模较大的情况下。这种改进的原理在于，去除残差连接显著改变了FFN的输入，从而影响其输出。因此，去除FFN的输出可能会减轻其对性能的负面影响。

自注意力机制

基于上述分析，使用最后一个自注意力层的注意力输出用于视觉-语言推理。

受到之前工作的启发，可以在注意力机制中使用不同的查询-键组合。实际上，在大多数情况下始终能够实现更好的性能，因此选择默认使用它。

主要实验

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和图像分割交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者图像分割微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者图像分割+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看