CVPR 2021 Incorporating Convolution Designs into Visual Transformers

动机
  1. 纯粹transformer结构通常需要大量的训练数据或额外的监督,限制了它在计算资源有限或训练数据有标记的场景中的应用。

    由于transformer在自然语言处理(NLP)任务中的成功,出现了一些将transformer应用于视觉领域的尝试(如ViT和DeiT)。然而,纯粹transformer结构通常需要大量的训练数据或额外的监督,以获得与卷积神经网络(CNNs)相当的性能。视觉transformer(ViT)是第一个直接继承NLP的纯transformer结构,并应用于图像分类。与许多现有的CNN相比,它获得了很好的结果。但它严重依赖于JFT-300M的大量数据集,限制了它在计算资源有限或训练数据有标记的场景中的应用。

  2. 设计一种新的视觉transformer,以克服这些限制。

    为了缓解对大量数据的依赖,数据高效图像transformer(DeiT)引入了CNN模型作为教师,并应用知识蒸馏改进了VIT的学生模型。因此,仅在ImageNet上进行训练的DeiT可以获得满意的结果。但对训练好的高性能CNN模型的需求是一个潜在的计算负担。此外,教师模型、蒸馏类型的选择也会影响最终绩效。因此,打算设计一种能够克服这些限制的新的视觉transformer。

  3. 是否应该从transformer上除去所有的卷积?

    在ViT中,基于transformer的模型在1000万个训练样本的领域中表现不如CNN。它声称”transformer缺少一些为CNN所固有归纳偏好。因此,在训练数据不足的情况下,不能很好地泛化“。在DeiT中,一个CNN作为教师给出了比使用transformer更好的性能,这可能是由于“transformer通过蒸馏继承的归纳偏好”。这些观察结果使我们重新思考是否应该从transformer上除去所有的卷积。在卷积过程中继承的归纳偏好应该被忘记吗?

  4. 无关卷积的transformer存在低层特征难提取和空间维度局部性忽略两个问题。

    回顾卷积,其主要特征是平移不变性和局部性。平移不变性与权重共享机制有关,它可以捕捉视觉任务中的几何和拓扑信息。对于局部性,视觉任务中的一个普遍假设是,邻居像素总是趋向于相关的。然而,纯粹的transformer架构并没有充分利用图像中存在的这些先验偏好。在实践中,ViT会将每个图像分割成一个大小为16×16或32×32。但是,对具有大的图像块的输入图像直接tokenization可能有两个局限性:1)难以捕捉图像中的低层信息(如边缘和角点);2)大的核过度参数化&#

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值