兼具CNN和Transformer优势，灵活使用归纳偏置，Facebook提出ConViT

最新推荐文章于 2024-05-14 21:29:18 发布

PaperWeekly

最新推荐文章于 2024-05-14 21:29:18 发布

阅读量961

点赞数

文章标签：人工智能深度学习机器学习计算机视觉编程语言

©作者 | 小舟、陈萍

来源 | 机器之心

AI 研究人员在构建新的机器学习模型和训练范式时，通常会使用一组被称为归纳偏置（inductive biases）的特定假设，来帮助模型从更少的数据中学到更通用的解决方案。近十年来，深度学习的巨大成功在一定程度上归功于强大的归纳偏置，基于其卷积架构已被证实在视觉任务上非常成功，它们的 hard 归纳偏置使得样本高效学习成为可能，但代价是可能会降低性能上限。而视觉 Transformer（如 ViT）依赖于更加灵活的自注意力层，最近在一些图像分类任务上性能已经超过了 CNN，但 ViT 对样本的需求量更大。

来自 Facebook 的研究者提出了一种名为 ConViT 的新计算机视觉模型，它结合了两种广泛使用的 AI 架构——卷积神经网络 (CNN) 和 Transformer，该模型取长补短，克服了 CNN 和 Transformer 本身的一些局限性。同时，借助这两种架构的优势，这种基于视觉 Transformer 的模型可以胜过现有架构，尤其是在小数据的情况下，同时在大数据的情况下也能实现类似的优秀性能。

论文地址：

https://arxiv.org/pdf/2103.10697.pdf

GitHub 地址：

https://github.com/facebookresearch/convit

在视觉任务上非常成功的 CNN 依赖于架构本身内置的两个归纳偏置：局部相关性：邻近的像素是相关的；权重共享：图像的不同部分应该以相同的方式处理，无论它们的绝对位置如何。

相比之下，基于自注意力机制的视觉模型（如 DeiT 和 DETR）最小化了归纳偏置。当在大数据集上进行训练时，这些模型的性能已经可以媲美甚至超过 CNN 。但在小数据集上训练时，它们往往很难学习有意义的表征。

这就存在一种取舍权衡：CNN 强大的归纳偏置使得即使使用非常少的数据也能实现高性能，但当存在大量数据时，这些归纳偏置就可能会限制模型。相比之下，Transformer 具有最小的归纳偏置，这说明在小数据设置下是存在限制的，但同时这种灵活性让 Transformer 在大数据上性能优于 CNN。

为此，Facebook 提出的 ConViT 模型使用 soft 卷积归纳偏置进行初始化，模型可以在必要时学会忽略这些偏置。

soft 归纳偏置可以帮助模型不受限制地学习。hard 归纳偏置，例如 CNN 的架构约束，可以极大地提高学习的样本效率，但当数据集大小不确定时可能就会成为约束。ConViT 中的 soft 归纳偏置能够在不需要时被忽略，以避免模型受到约束限制。

ConViT 工作原理

ConViT 在 vision Transformer 的基础上进行了调整，以利用 soft 卷积归纳偏置，从而激励网络进行卷积操作。同时最重要的是，ConViT 允许模型自行决定是否要保持卷积。为了利用这种 soft 归纳偏置，研究者引入了一种称为「门控位置自注意力（gated positional self-attention，GPSA）」的位置自注意力形式，其模型学习门控参数 lambda，该参数用于平衡基于内容的自注意力和卷积初始化位置自注意力。

如上图所示，ConViT（左）在 ViT 的基础上，将一些自注意力（SA）层用门控位置自注意力层（GPSA，右）替代。因为 GPSA 层涉及位置信息，因此在最后一个 GPSA 层之后，类 token 会与隐藏表征联系到一起。

有了 GPSA 层加持，ConViT 的性能优于 Facebook 去年提出的 DeiT 模型。例如，ConViT-S+ 性能略优于 DeiT-B（对比结果为 82.2% vs. 81.8%），而 ConViT-S + 使用的参数量只有 DeiT-B 的一半左右 (48M vs 86M)。而 ConViT 最大的改进是在有限的数据范围内，soft 卷积归纳偏置发挥了重要作用。例如，仅使用 5% 的训练数据时，ConViT 的性能明显优于 DeiT（对比结果为 47.8% vs. 34.8%）。

此外，ConViT 在样本效率和参数效率方面也都优于 DeiT。如上图所示，左图为 ConViT-S 与 DeiT-S 的样本效率对比结果，这两个模型是在相同的超参数，且都是在 ImageNet-1k 的子集上训练完成的。图中绿色折线是 ConViT 相对于 DeiT 的提升。研究者还在 ImageNet-1k 上比较了 ConViT 模型与其他 ViT 以及 CNN 的 top-1 准确率，如上右图所示。

除了 ConViT 的性能优势外，门控参数提供了一种简单的方法来理解模型训练后每一层的卷积程度。查看所有层，研究者发现 ConViT 在训练过程中对卷积位置注意力的关注逐渐减少。对于靠后的层，门控参数最终会收敛到接近 0，这表明卷积归纳偏置实际上被忽略了。然而，对于起始层来说，许多注意力头保持较高的门控值，这表明该网络利用早期层的卷积归纳偏置来辅助训练。

上图展示了 DeiT (b) 及 ConViT (c) 注意力图的几个例子。σ(λ) 表示可学习的门控参数。接近 1 的值表示使用了卷积初始化，而接近 0 的值表示只使用了基于内容的注意力。注意，早期的 ConViT 层部分地维护了卷积初始化，而后面的层则完全基于内容。

测试是在 ImageNet-1K 上进行的，没有进行知识蒸馏，结果如下：

AI 模型的性能在很大程度上取决于训练这些模型所用的数据类型和数据规模。在学术研究和现实应用中，模型经常受到可用数据的限制。ConViT 提出的这种 soft 归纳偏置，在适当的时候能够被忽略，这种创造性的想法让构建更灵活的人工智能系统前进了一步。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

???? 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

PaperWeekly

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
兼具CNN和Transformer优势，灵活使用归纳偏置，Facebook提出ConViT

©作者|小舟、陈萍来源|机器之心AI 研究人员在构建新的机器学习模型和训练范式时，通常会使用一组被称为归纳偏置（inductive biases）的特定假设，来帮助模型从更少的数据...
复制链接

扫一扫