CVPR 2021 An Empirical Study of Training Self-Supervised Visual Transformers

动机
  1. transformer是一种有效的工具。

    transformer最初是为机器翻译而引入的,后来成为NLP的主干。由于语言的非局部性、关系自然性,这种长时的、自注意力的行为使transformer成为一种有效的工具。

  2. 最近关于视觉transformer(ViT)的工作极大地推动了这一前沿。

  3. ViT纯粹是基于transformer的,而不是与非退化(即non-1×1)的卷积交织在一起的。本论文认为简单地比较自注意力和“卷积”是不精确的。根据定义,卷积有几个性质:权重共享,局部连接,平移同变性。自注意力块中全部投影层具有卷积的所有这些性质,并且等价于1×1卷积。自注意力的对应物是更恰当的非退化(例如3×3)卷积。这在很大程度上弥补了NLP和Vision之间的架构差距。ViT在高级学习中,特别是在大规模数据和高容量模型中,具有惊人的精确度。鉴于这些特性,本论文认为ViT是计算机视觉下自监督学习的一个必须研究的基线。

  4. ViT模型是新的,它们的核心方法还有待更新。

    与标准卷积网络不同的是,由于各学者的持续的研究,卷积网络的训练实践已经得到了广泛的研究,ViT模型是新的,它们的核心方法还有待更新。在这项工作中,本论文回到基础并研究训练深度神经网络的基本组成部分:批量大小、学习速率和优化器。

  5. 在各种情况下,不稳定性是影响自监督ViT训练的一个主要问题。

    不稳定的ViT训练可能不会导致灾难性的失败(例如,发散);相反,它会导致精度轻度下降(例如1%-3%)。这种退化程度可能不会太明显,除非有更稳定的对应物可供比较。据本论文所知,这种现象在卷积网络训练领域是很少见的,本论文认为这个问题及其隐藏的退化是值得注意的。为了演示不稳定性可能带来的危害,本论文考察了一个在实践中可以提高稳定性的简单技巧。基于对梯度变化的经验观察,本论文冻结了ViT中的块投影层,即本论文使用固定的随机块投影。本论文的经验表明,这一技巧缓解了几个SCE中的不稳定性问题,并不断提高精确度。

  6. 视觉自监督transformer。

    无监督的预训练使自然语言处理(NLP)发生了革命性的变化。在计算机虚拟实验中,无/自监督的预训练范式至少在两个方面与它们的NLP对应的范式不同:(1)NLP的学习器是掩码的自动编码器,而在vision中,最近流行的选择是Siamese网络;(ii)NLP的主干结构是自注意力transformer,而在vision中,通常的选择是卷积的-但非注意力的深度残差网络。在开创性的著作中,训练自监督的transformer解决虚拟问题一般遵循NLP中的掩码自动编码范式。iGPT对像素进行掩码和重建,ViT的自监督变体对图像块进行掩码和重建。为了完成视觉自监督学习的大图景,缩小视觉和语言在训练前方法上的差距,研究这些差异是有科学价

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值