NeurIPS 2025 | 清北联手提出VCA:Pool+Emb双流设计,打破ViT平方复杂度魔咒!

点击原文查看更多NeurIPS 2025论文合集

一、导读

视觉变换器(Vision Transformer, ViT)在图像识别和生成中已成为主流架构,但其核心的多头自注意力(Multi-Head Self-Attention, MHSA)模块存在计算复杂度高、容易关注冗余信息的问题。这导致模型训练和推理速度慢,限制了其在实际任务中的应用。

为了解决这一问题,本文提出了一种名为 视觉对比注意力(Visual-trast Attention, VCA) 的模块,用于替代传统的 MHSA。VCA 通过将图像特征压缩为少量视觉对比标记,并引入正负双流对比机制,显著降低了计算复杂度,同时增强了模型的判别能力。

实验表明,该方法在图像分类和生成任务中均取得了显著提升,且无需增加额外计算开销。

二、论文基本信息

  • 论文标题:Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials

  • 作者姓名与单位:Yifan Pu, Jixuan Ying, Qixiu Li, Tianzhu Ye, Dongchen Han, Xiaochen Wang, Ziyi Wang, Xinyu Shao, Gao Huang, Xiu Li(清华大学,北京大学)

  • 发表会议:NeurIPS 2025

  • 代码链接:https://github.com/LeaplLabTHU/LinearDiff

三、主要贡献与创新

  1. 提出 视觉对比注意力(VCA),首次在视觉变换器中引入显式对比机制并实现线性复杂度。

  2. 通过空间池化与双位置嵌入,有效提取全局视觉对比信息。

  3. 在图像分类与生成任务中均取得显著性能提升,且不增加额外计算负担。

  4. 模块设计通用,可即插即用于多种 ViT 架构。

四、研究方法与原理

VCA 的核心思路是通过压缩查询特征为少量视觉对比标记,并利用正负双流对比机制,在降低计算复杂度的同时增强模型判别能力。

【论文中未提供模型结构图,以下为文字描述】

VCA 分为两个阶段:

  • 第一阶段:全局对比(Stage I - Global Contrast)

    首先,对每个注意力头中的查询特征  进行空间平均池化,得到 ,其中 。接着,分别加上正负位置嵌入  和 ,得到正负视觉对比标记:

将其展平后得到 。然后分别对键  和值  进行注意力计算:

最后进行差分操作并归一化:

  • 第二阶段:块级差分注意力(Stage II - Patch-wise Differential Attention)

    原始查询  分别与正负视觉对比标记计算注意力分数:

合并为差分注意力图:

最终输出为:

  • 复杂度分析

    VCA 的总体复杂度为 ,相比传统 MHSA 的  显著降低,其中 。

五、实验设计与结果分析

实验设置

  • 图像分类任务使用 ImageNet-1K 数据集,包含 128 万训练图像和 5 万验证图像,评估指标为 Top-1 准确率。

  • 图像生成任务使用  分辨率的 ImageNet-1K,评估指标为 FID-50K。

对比实验

  • 图像分类:VCA 在 DeiT-Tiny 上将准确率从 72.2% 提升至 75.6%(+3.4%),在 PVT、Swin、CSwin 等架构上也均有显著提升。

  • 图像生成(表2):在 DiT 和 SiT 模型中,VCA 均显著降低 FID-50K,最高提升达 5.2 分。

消融实验

  • 模型结构消融:Stage I 和 Stage II 均对性能有贡献,两者结合效果最佳。

  • 视觉对比标记生成方式:**"Pool+Emb"** 方式(即池化+位置嵌入)在正负流中均使用效果最好,说明空间池化与位置嵌入的协同作用至关重要。

六、论文结论与评价

总结

本文提出的 视觉对比注意力(VCA) 在保持线性计算复杂度的同时,显著提升了视觉变换器在图像分类和生成任务中的性能。其核心在于通过压缩查询特征并引入正负对比机制,增强了模型对关键视觉差异的感知能力。

评价

VCA 是一种高效且通用的注意力改进方案,尤其适合计算资源受限或对生成质量要求较高的场景。然而,该方法在处理细节丰富的图像时可能因池化操作丢失部分信息,且在视频或三维视觉任务中的适用性尚未验证。未来可探索更精细的特征压缩方式,或将其扩展至多模态任务中。

点击原文查看更多NeurIPS 2025论文合集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值