【自监督论文阅读笔记】Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

2023

Abstract

        本文展示了一种学习高度语义图像表示的方法,而不依赖于手工制作的数据增强。本文介绍了基于图像的联合嵌入预测架构 (I-JEPA),这是一种用于从图像进行自监督学习的非生成方法。 I-JEPA 背后的想法很简单:从单个上下文块,预测同一图像中各种目标块的表示。引导 I-JEPA 生成语义表示的核心设计选择是 掩码策略;具体来说,至关重要的是 (a) 预测图像中的几个目标块,(b) 对具有足够大尺度的目标块进行采样(占据图像的 15%–20%),以及 (c) 使用足够信息(空间分布)的上下文块。根据经验,当与 Vision Transformers 结合使用时,本文发现 I-JEPA 具有高度可扩展性。例如,本文在 ImageNet 上使用 32 个 A100 GPU 在 38 小时内训练了 ViT-Huge/16,以在需要不同抽象级别的各种任务(从线性分类到目标计数和深度预测)中实现强大的下游性能


1. Introduction

        在计算机视觉中,有两种常见的图像自监督学习方法:基于不变性的方法 [9,16,17,22,33,35,70] 和 生成方法 [7,26,34,55]。

基于不变性的方法

        基于不变性的预训练方法 优化编码器,为同一图像的两个或多个视图生成相似的嵌入 [14、19],图像视图通常使用一组手工制作的数据增强来构建,例如随机缩放、裁剪和颜色抖动 [19],等等 [33]。这些预训练方法可以产生高语义级别的表示 [3、17],但它们也引入了强烈的偏差,这可能对某些下游任务甚至具有不同数据分布的预训练任务不利 [1]。通常,不清楚如何为需要不同抽象级别的任务概括这些偏差。例如,图像分类和实例分割不需要相同的不变性 [10]。此外,将这些特定于图像的增强推广到其他模式(例如音频)并不简单

生成方法

        认知学习理论表明,生物系统中表示学习背后的驱动机制是 适应内部模型 以 预测感官输入反应 [29, 57]。这个想法是自监督生成方法的核心,它删除或破坏部分输入 并 学习预测损坏的内容 [8、34、55、64、65、68]。特别是,掩码去噪方法 通过 在像素或tokens级别 从输入重建随机屏蔽的patches 来学习表示。 掩码的预训练任务 比 视图不变性方法 需要更少的先验知识,并且很容易泛化到图像模态之外 [7]。然而,由此产生的表示通常具有较低的语义级别,并且在现成的评估(例如,线性探测)和 语义分类任务监督有限的迁移设置中 表现弱于 基于不变性的预训练 [3]。因此,需要更复杂的适应机制(例如,端到端微调)来充分利用这些方法的优势。

        在这项工作中,探索了如何在 不使用通过图像变换编码的额外先验知识的情况下 提高自监督表示的语义水平。为此,本文引入了基于图像的联合嵌入预测架构(I-JEPA) [46]。图 3 提供了该方法的说明。I-JEPA 背后的想法是预测抽象表示空间中的缺失信息;例如,给定单个上下文块,预测同一图像中各种目标块的表示,其中目标表示由学习的目标编码器网络计算。

        与 在 像素/token空间 中进行预测的生成方法相比,I-JEPA 利用抽象的预测目标可能会消除不必要的像素级细节,从而使模型学习更多的语义特征

        另一个引导 I-JEPA 产生语义表示的核心设计选择是 提出的多块掩码策略。具体来说,本文证明了 使用 信息丰富的(空间分布的)上下文块 预测图像中的几个目标块(具有足够大的比例)的重要性

        通过广泛的实证评估,本文证明:

        • I-JEPA 在 不使用手工的视图增强 的情况下 学习强大的现成的语义表示(参见图 1)。 I-JEPA 在 ImageNet-1K 线性探测、半监督 1% ImageNet-1K 和语义迁移任务上优于像素重建方法,例如 MAE [34]。

        • I-JEPA 在语义任务上与视图不变的预训练方法相比具有竞争力,并且在目标计数和深度预测(第 5 节和第 6 节)等低级视觉任务上 取得了更好的性能。通过使用具有较少刚性归纳偏差的更简单模型,I-JEPA 适用于更广泛的任务集。

      

  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值