AMiner推荐论文：Can Vision Transformers Perform Convolution?

AMiner学术搜索和科技情报挖掘

于 2021-11-08 15:51:28 发布

阅读量324

点赞数

分类专栏： AMiner AMiner论文推荐文章标签： transformer 计算机视觉深度学习

本文链接：https://blog.csdn.net/AI_Conf/article/details/121209440

版权

AMiner 同时被 2 个专栏收录

729 篇文章 44 订阅

订阅专栏

AMiner论文推荐

515 篇文章 52 订阅

订阅专栏

论文链接：https://www.aminer.cn/pub/6181fdcd5244ab9dcb7a679b?f=cs
Visual Transformer（ViT）在计算机视觉界可以说是风头无两，完全不使用卷积神经网络（CNN）而只使用自注意力机制的情况下，还可以在各个CV任务上达到sota。研究结果也表明，只要有足够的训练数据时，ViT可以显著地优于基于卷积的神经网络模型。但这并不代表CNN推出了历史舞台，ViT在CIFAR-100等小型数据集上的表现仍然比CNN差。一个比较常见的解释是Transformer更强大的原因在于自注意力机制获得了上下文相关的权重，而卷积只能捕捉局部特征。然而，目前还没有证据证明Transformer是否真的比CNN全方面、严格地好，也就是说，是否CNN的表达能力完全被Transformer包含？之前有学者给出了一些他们的答案，实验表明具有足够数量header的自注意力层可以表示卷积，但它们只关注于注意力层的输入表示为像素的情况，在输入序列非常长时内存成本巨大，这是不实用的。而且在ViT及其大多数变体中，输入是非重叠图像片段（image patch）的表示，而不是像素。卷积操作涉及的像素跨越了patch的边界，ViT 中的一个自注意力层是否可以表示卷积仍然是未知的。来自北大、加利福尼亚大学洛杉矶分校UCLA、微软的研究人员就这个问题进行了研究并给出了一个具有证明、肯定的（affirmative）答案：具有相对位置编码和足够注意力header的ViT层即使在输入是图像补丁的情况下也可以表示任何卷积。
AMiner,让AI帮你理解科学！https://www.aminer.cn
在这里插入图片描述

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AMiner推荐论文：Can Vision Transformers Perform Convolution?

论文链接：https://www.aminer.cn/pub/6181fdcd5244ab9dcb7a679b?f=csVisual Transformer（ViT）在计算机视觉界可以说是风头无两，完全不使用卷积神经网络（CNN）而只使用自注意力机制的情况下，还可以在各个CV任务上达到sota。研究结果也表明，只要有足够的训练数据时，ViT可以显著地优于基于卷积的神经网络模型。但这并不代表CNN推出了历史舞台，ViT在CIFAR-100等小型数据集上的表现仍然比CNN差。一个比较常见的解释是Tran
复制链接

扫一扫

专栏目录