CVPR 2021 Incorporating Convolution Designs into Visual Transformers

最新推荐文章于 2023-05-04 17:06:45 发布

smile909

最新推荐文章于 2023-05-04 17:06:45 发布

阅读量1.5k

点赞数 1

分类专栏： CVPR 2021

本文链接：https://blog.csdn.net/smile909/article/details/115434673

版权

动机

纯粹transformer结构通常需要大量的训练数据或额外的监督，限制了它在计算资源有限或训练数据有标记的场景中的应用。

由于transformer在自然语言处理(NLP)任务中的成功，出现了一些将transformer应用于视觉领域的尝试（如ViT和DeiT）。然而，纯粹transformer结构通常需要大量的训练数据或额外的监督，以获得与卷积神经网络(CNNs)相当的性能。视觉transformer(ViT)是第一个直接继承NLP的纯transformer结构，并应用于图像分类。与许多现有的CNN相比，它获得了很好的结果。但它严重依赖于JFT-300M的大量数据集，限制了它在计算资源有限或训练数据有标记的场景中的应用。
设计一种新的视觉transformer，以克服这些限制。

为了缓解对大量数据的依赖，数据高效图像transformer(DeiT)引入了CNN模型作为教师，并应用知识蒸馏改进了VIT的学生模型。因此，仅在ImageNet上进行训练的DeiT可以获得满意的结果。但对训练好的高性能CNN模型的需求是一个潜在的计算负担。此外，教师模型、蒸馏类型的选择也会影响最终绩效。因此，打算设计一种能够克服这些限制的新的视觉transformer。
是否应该从transformer上除去所有的卷积？

在ViT中，基于transformer的模型在1000万个训练样本的领域中表现不如CNN。它声称”transformer缺少一些为CNN所固有归纳偏好。因此，在训练数据不足的情况下，不能很好地泛化“。在DeiT中，一个CNN作为教师给出了比使用transformer更好的性能，这可能是由于“transformer通过蒸馏继承的归纳偏好”。这些观察结果使我们重新思考是否应该从transformer上除去所有的卷积。在卷积过程中继承的归纳偏好应该被忘记吗？
无关卷积的transformer存在低层特征难提取和空间维度局部性忽略两个问题。

回顾卷积，其主要特征是平移不变性和局部性。平移不变性与权重共享机制有关，它可以捕捉视觉任务中的几何和拓扑信息。对于局部性，视觉任务中的一个普遍假设是，邻居像素总是趋向于相关的。然而，纯粹的transformer架构并没有充分利用图像中存在的这些先验偏好。在实践中，ViT会将每个图像分割成一个大小为16×16或32×32。但是，对具有大的图像块的输入图像直接tokenization可能有两个局限性：1）难以捕捉图像中的低层信息（如边缘和角点）；2）大的核过度参数化&#

最低0.47元/天解锁文章

smile909

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
CVPR 2021 Incorporating Convolution Designs into Visual Transformers

动机纯粹transformer结构通常需要大量的训练数据或额外的监督，限制了它在计算资源有限或训练数据有标记的场景中的应用。由于transformer在自然语言处理(NLP)任务中的成功，出现了一些将transformer应用于视觉领域的尝试（如ViT和DeiT）。然而，纯粹transformer结构通常需要大量的训练数据或额外的监督，以获得与卷积神经网络(CNNs)相当的性能。视觉transformer(ViT)是第一个直接继承NLP的纯transformer结构，并应用于图像分类。与许多现有的C
复制链接

扫一扫