AMiner推荐论文:Can Vision Transformers Perform Convolution?

论文链接:https://www.aminer.cn/pub/6181fdcd5244ab9dcb7a679b?f=cs
Visual Transformer(ViT)在计算机视觉界可以说是风头无两,完全不使用卷积神经网络(CNN) 而只使用自注意力机制的情况下,还可以在各个CV任务上达到sota。 研究结果也表明,只要有足够的训练数据时,ViT可以显著地优于基于卷积的神经网络模型。但这并不代表CNN推出了历史舞台,ViT在CIFAR-100等小型数据集上的表现仍然比CNN差。 一个比较常见的解释是Transformer更强大的原因在于自注意力机制获得了上下文相关的权重,而卷积只能捕捉局部特征。 然而,目前还没有证据证明Transformer是否真的比CNN全方面、严格地好,也就是说,是否CNN的表达能力完全被Transformer包含? 之前有学者给出了一些他们的答案,实验表明具有足够数量header的自注意力层可以表示卷积,但它们只关注于注意力层的输入表示为像素的情况,在输入序列非常长时内存成本巨大,这是不实用的。 而且在ViT及其大多数变体中,输入是非重叠图像片段(image patch)的表示,而不是像素。卷积操作涉及的像素跨越了patch的边界,ViT 中的一个自注意力层是否可以表示卷积仍然是未知的。 来自北大、加利福尼亚大学洛杉矶分校UCLA、微软的研究人员就这个问题进行了研究并给出了一个具有证明、肯定的(affirmative)答案:具有相对位置编码和足够注意力header的ViT层即使在输入是图像补丁的情况下也可以表示任何卷积。
AMiner,让AI帮你理解科学!https://www.aminer.cn
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值