【Transformer】
[2024] Differential Transformer
机构:微软、清华
论文链接:https://arxiv.org/pdf/2410.05258
代码链接:https://github.com/microsoft/unilm/tree/master/Diff-Transformer
Transformer倾向于将注意力过度分配给不相关的上下文
。这项工作引入了Diff Transformer,它放大了对相关上下文的注意力,同时消除噪声。具体来说,差分注意力机制通过计算两个独立的softmax注意力图之间的差值来计算注意力分数。减法操作消除了噪声,促进了稀疏注意力模式的出现。在语言模型上的实验结果表明,Diff Transformer在不同规模扩大模型大小和训练tokens的设置下均优于Transformer。更有趣的是,它在实际应用中提供了显著的优势,如长上下文建模、关键信息检索、幻觉缓解、上下文内学习和激活异常值减少。由于对不相关上下文的分心较少,Diff Transformer可以在问题回答和文本摘要中缓解幻觉现象。对于上下文内学习,Diff Transformer不仅提高了准确性,而且对顺序排列更为鲁棒,这被认为是一个长期存在的鲁棒性问题。这些结果使Diff Transformer成为一个高效且有前景的架构,用于推进大型语言模型的发展。
代码示例:
[CVPR 2024] AM-RADIO: Agglomerative Vision Foundation Model – Reduce All Domains Into One
AM-RADIO=CLIP+DINOv2+SAM
论文链接:https://arxiv.org/abs/2312.06709
代码链接:https://github.com/NVlabs/RADIO
最近,一些视觉基础模型(VFMs)作为许多下游任务的主干模型迅速崭露头角。像CLIP、DINOv2、SAM等VFMs通过不同的训练目标展现出独特的特征,适用于各种下游任务。作者发现,尽管这些模型在概念上有所不同,但可以通过多教师蒸馏有效地将它们融合成一个统一模型。将这种方法命名为AM-RADIO(聚合模型——将所有领域整合为一)。这种集成方法不仅超越了单个教师模型的性能,而且融合了它们的特色功能,如零样本视觉-语言理解、详细的像素级理解和开放词汇分割能力。为了追求最高效的硬件主干,在多教师蒸馏管道中使用相同的训练配方评估了许多架构。这促进了一种新颖的架构(E-RADIO)的开发,其性能超过了其前身,并且至少比教师模型快7倍。综合基准测试过程涵盖了包括ImageNet分类、ADE20k语义分割、COCO物体检测和LLaVa-1.5框架在内的下游任务。
【图像修复】
[ACCV 2024] TANet: Triplet Attention Network for All-In-One Adverse Weather Image Restoration
论文链接:https://arxiv.org/pdf/2410.08177v1
代码链接:https://github.com/xhuachris/TANet-ACCV-2024
恶劣天气图像修复旨在消除由恶劣天气条件引起的不需要的退化伪影,如雾霾、雨和雪。现有方法在处理单一天气条件方面取得了显著成果。然而,当遇到不可预测的天气条件时,它们面临挑战,这在现实世界场景中经常发生。尽管不同的天气条件表现出不同的退化模式,但它们具有高度相关且互补的共同特征,如由于退化模式引起的遮挡、颜色失真以及由于大气颗粒散射引起的对比度衰减。因此,论文专注于利用多个天气条件下的共有知识以统一方式恢复图像。这篇论文提出了一个三重注意力网络(TANet),以高效有效地解决一站式恶劣天气图像修复问题。TANet由**三重注意力块(TAB)**组成,该模块结合了三种类型的注意力机制:**局部逐像素注意力(LPA)和全局条带式注意力(GSA)来处理非均匀退化模式引起的遮挡,以及全局分布注意力(GDA)**来解决大气现象引起的颜色失真和对比度衰减。通过利用不同天气条件下的共有知识,TANet成功地以统一的方式解决了多种天气条件的问题。实验结果表明,TANet在一站式恶劣天气图像修复中高效且有效地达到了最先进的性能。