PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers

        视觉转换器(ViTs)建立在将图像块视为“视觉令牌”并学习块到块注意力的假设之上。基于补丁嵌入的分词器相对于其对应物文本分词器具有语义鸿沟。补丁到补丁的注意力受到二次复杂性问题的影响,这也使得解释习得的ViT变得不容易。为了解决这些问题,在ViT,本文提出了学习补丁到集群的注意力(PaCa)在ViT。我们的PaCa-ViT中的聚类从补丁开始,而键和值直接基于聚类(具有预定义的少量聚类)。这些集群是端到端学习的,从而产生更好的标记器,并诱导联合的关注集群和关注集群,以获得更好的可解释的模型。将二次复杂度放宽为线性复杂度。所提出的PaCa模块用于设计高效和可解释的ViT骨干和语义分割头网络。在实验中,所提出的方法在ImageNet-1 k图像分类,MS-COCO对象检测和实例分割以及MIT-ADE 20 k语义分割上进行了测试。与现有技术相比,它在ImageNet-1 k和MIT-ADE 20 k中的所有三个基准测试中都获得了比SWin [32]和PVT [47,48]更好的性能。由于线性复杂性,它也比MS-COCO和MIT-ADE 20 k中的PVT模型更有效。学习的聚类在语义上是有意义的。代码和模型检查点可以在https://github.com/ iVMCL/PaCaViT上找到。

1 引言

        一张图片胜过千言万语。寻找能够弥合这些单词和原始图像数据之间的语义差距的解决方案,长期以来一直是计算机视觉、机器学习和人工智能领域的一个巨大挑战。深度学习在过去十年中彻底改变了计算机视觉领域。最近,视觉转换器(ViTs)[13,45]在计算机视觉方面取得了显着进展。ViT的构建基于将图像块视为“视觉标记”,使用块嵌入和学习块到块的注意力。与在自然语言处理中作为输入提供的文本标记不同,视觉标记需要首先被学习,并且为了更有效地学习视觉标记而被不断地细化。基于补丁嵌入的标记器是实践中的一种变通方法,并且相对于其对应物文本标记器具有语义间隙。一方面,众所周知的Transformer模型的二次复杂性和图像的2D空间性质的问题创建了一个不平凡的任务,开发适用于许多视觉问题,包括图像分类,对象检测和语义分割的ViT。另一方面,解释训练的ViT需要非平凡和复杂的方法[4],遵循可解释AI(XAI)[18]的趋势,该趋势已被卷积神经网络广泛研究。

        为了解决二次复杂性,已经开发了两个主要变体并取得了巨大成功:一个是使用预定义的窗口大小(例如,7 × 7)如SWinTransformer [32]和ViT的嵌套变体[62]。另一种是在较粗糙的级别(即,嵌套片嵌入)以减小序列长度(即,在计算键和值之前(同时保持查询长度不变)[47,48,52],如图1(左下)和图2(a)所示。这些变体中的大多数遵循各向同性ViT模型中使用的补丁到补丁注意力设置[13]。虽然现有的ViT变体已经显示出很好的结果,但由于图像网格的底层预定义子采样,基于补丁嵌入的方法可能不是学习视觉令牌的最佳方式。此外,由于图像的组成性质和可重复使用的部分,补丁到补丁的注意力并没有考虑到图像中发现的空间冗余[15]。因此,值得探索其他方法来学习更有语义意义的视觉标记。一个问题自然而然地出现了:我们是否可以重新思考视觉任务中的补丁到补丁的注意机制,以便一石三鸟(降低复杂性,促进更好的视觉标记器和实现简单的向前可解释性)?

        如图1(右)和图2(B)所示,本文提出学习补丁到集群注意力(PACA),这提供了解决上述问题的直接方式:给定输入序列(例如,N=H·W),轻量级集群模块通过首先计算集群分配来找到有意义的集群。具有预定义的少量集群M(例如,M=100)。然后,通过,之间的简单矩阵乘法形成M个潜在的“视觉标记”ZM,C。在推理中,我们可以直接将簇C视化为热图,以揭示训练的模型捕获了什么(图1,右下角)。提出的PACA模型在VIT模型中引入了联合学习聚类和注意力聚类。我们研究了PACA模块的四个方面:

        在哪里计算集群分配?考虑组装ViT模块的阶段式金字塔结构(图3)[47,48],一个阶段由多个模块组成。我们测试了两种设置:通过计算每个块的簇分配来逐块地进行,或者通过仅在级中的第一块中计算簇分配然后与其余块共享簇分配来逐级地进行。两者的性能相当。当模型变深时,后者更有效。

        如何计算聚类分配?我们还测试了两种设置:使用2D卷积或基于多层感知器(MLP)的实现。两者具有相似的性能。后者更通用,并以领域不可知的方式阐明了利用PaCa进行更通用的令牌到集群注意(ToCa)。

        如何利用外部集群教师?我们研究了一种利用轻量级卷积神经网络(图4)学习一个阶段中所有模块共享的聚类分配的方法。它给出了一些有趣的观察结果,并可能为提取大型地基模型铺平道路[3]。

        如果已知集群的数量呢?我们进一步扩展了PaCa模块,为密集预测任务(如图像语义分割)设计了有效的头部子网(图5),其中,聚类数M基于类的地面真实

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值