CVPR 2021 An Empirical Study of Training Self-Supervised Visual Transformers

最新推荐文章于 2023-02-27 21:45:24 发布

VIP文章 smile909

最新推荐文章于 2023-02-27 21:45:24 发布

阅读量1.5k

点赞数

分类专栏： CVPR 2021

本文链接：https://blog.csdn.net/smile909/article/details/115610177

版权

动机

transformer是一种有效的工具。

transformer最初是为机器翻译而引入的，后来成为NLP的主干。由于语言的非局部性、关系自然性，这种长时的、自注意力的行为使transformer成为一种有效的工具。
最近关于视觉transformer（ViT）的工作极大地推动了这一前沿。
ViT纯粹是基于transformer的，而不是与非退化（即non-1×1）的卷积交织在一起的。本论文认为简单地比较自注意力和“卷积”是不精确的。根据定义，卷积有几个性质：权重共享，局部连接，平移同变性。自注意力块中全部投影层具有卷积的所有这些性质，并且等价于1×1卷积。自注意力的对应物是更恰当的非退化（例如3×3)卷积。这在很大程度上弥补了NLP和Vision之间的架构差距。ViT在高级学习中，特别是在大规模数据和高容量模型中，具有惊人的精确度。鉴于这些特性，本论文认为ViT是计算机视觉下自监督学习的一个必须研究的基线。
ViT模型是新的，它们的核心方法还有待更新。

与标准卷积网络不同的是，由于各学者的持续的研究，卷积网络的训练实践已经得到了广泛的研究，ViT模型是新的，它们的核心方法还有待更新。在这项工作中，本论文回到基础并研究训练深度神经网络的基本组成部分：批量大小、学习速率和优化器。
在各种情况下，不稳定性是影响自监督ViT训练的一个主要问题。

不稳定的ViT训练可能不会导致灾难性的失败（例如，发散）；相反，它会导致精度轻度下降（例如1%-3%)。这种退化程度可能不会太明显，除非有更稳定的对应物可供比较。据本论文所知，这种现象在卷积网络训练领域是很少见的，本论文认为这个问题及其隐藏的退化是值得注意的。为了演示不稳定性可能带来的危害，本论文考察了一个在实践中可以提高稳定性的简单技巧。基于对梯度变化的经验观察，本论文冻结了ViT中的块投影层，即本论文使用固定的随机块投影。本论文的经验表明，这一技巧缓解了几个SCE中的不稳定性问题，并不断提高精确度。
视觉自监督transformer。

无监督的预训练使自然语言处理(NLP)发生了革命性的变化。在计算机虚拟实验中，无/自监督的预训练范式至少在两个方面与它们的NLP对应的范式不同：（1）NLP的学习器是掩码的自动编码器，而在vision中，最近流行的选择是Siamese网络；(ii)NLP的主干结构是自注意力transformer，而在vision中，通常的选择是卷积的-但非注意力的深度残差网络。在开创性的著作中，训练自监督的transformer解决虚拟问题一般遵循NLP中的掩码自动编码范式。iGPT对像素进行掩码和重建，ViT的自监督变体对图像块进行掩码和重建。为了完成视觉自监督学习的大图景，缩小视觉和语言在训练前方法上的差距，研究这些差异是有科学价

最低0.47元/天解锁文章

smile909

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2021 An Empirical Study of Training Self-Supervised Visual Transformers

动机transformer是一种有效的工具。transformer最初是为机器翻译而引入的，后来成为NLP的主干。由于语言的非局部性、关系自然性，这种长时的、自注意力的行为使transformer成为一种有效的工具。最近关于视觉transformer（ViT）的工作极大地推动了这一前沿。ViT纯粹是基于transformer的，而不是与非退化（即non-1×1）的卷积交织在一起的。本论文认为简单地比较自注意力和“卷积”是不精确的。根据定义，卷积有几个性质：权重共享，局部连接，平移同变性。
复制链接

扫一扫