计算机视觉中的自监督表示学习近期进展

本文介绍了自监督表示学习在计算机视觉中的应用,包括对比学习方法,如MoCo v1/v2, SimCLR v1/v2和BYOL。这些方法通过最大化相似性并最小化差异性来学习表示,解决了深度学习中大量标注数据的需求问题。对比学习的核心是对比损失函数,例如InfoNCE,以及不同的架构,如端到端反向传播、记忆银行和动量对比。这些进展为无监督预训练提供了强大工具,可用于下游任务的高性能表现。" 101048673,8396981,Flutter:后台高效处理JSON数据解析,"['Flutter开发', '多线程', '网络请求', '数据解析', '性能优化']
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|燕皖

单位|渊亭科技

研究方向|计算机视觉、CNN

回顾过去一年左右的自监督学习领域的最重要发展,那么会发现很多优秀的作品:MoCo v1 和 v2,SimCLR v1 和 v2,BYOL。本文先对自监督表示学习进行一般性介绍,随后重点介绍这几种自监督学习方法。

Representation Learning

▲ Representations: The input image (224 x 224 x 3) is passed through a feature extractor (typically a trained CNN network) that non-linearly transforms the spatial features of the image to a vector space of dimension 512.

计算机视觉中的表征学习是从原始数据中提取特征。特征提取涉及将原始数据处理到向量空间中,捕获表示该数据的基础时空信息。

在计算机视觉中,表征学习算法可分为两类:

  • 监督学习(Supervised learning):利用大量的标注数据来训练神经网络模型,完成模型训练之后,不直接使用分类的 fc 层的输出,而是其前一层的输出作为 Representation 用于下游任务。

  • 自监督学习(Self-Supervised Learning):利用大规模的无标注的数据,选择合适的辅助任务(pretext)和自身的监督信号,进行训练,从而可以学习到 Representation 用于下游任务。

Self-Supervised Learning

自监督学习的思想来源于自然语言处理(NLP)领域。在 NLP 中,一个大的未标记语料库通过表征学习抽取每个语料的表征,也就是将高维空间稀疏的表示转换为低维空间稠密的表示,然后再使用稠密的表示完成下游任务的训练。

而基于深度学习的计算机视觉任务面临的一个主要问题是大量数据处理的问题。为了获得良好的结果,通常需要标记大量的数据。在许多情况下,大量的标记是很麻烦的,所以自监督学习被用来作为一个解决方案来克服这一点。

现有的自监督学习通常分为两大类,生成方法(Generative Methods)和对比方法(Contrastive Methods)。生成方法专注于像素空间的特征,其过于关注像素细节,难以建立空间关联和结构。

而对比方法通过正面和负面的例子来学习表征。尽管不是全新的思路,但其在计算机视觉任务中取得了较快的发展。通常自监督的对比方法也称为自监督对比学习。

Contrastive Learning

3.1 Contrastive Loss(InfoNCE)

对比学习的核心思想是最大化相似性和最小化差异性的损失。先定义:

  • Query (q):待查询的图像

  • Positive sample (k₊):与 query 相似的样本

  • Negative sample (k₋):与 query 不相似的样本

Van den Oord et al.提出了一种称为 Noise Contrastive Estimation (InfoNCE) 得损失函数,如下:

这里的 q 是 encoded query 向量,而包含 encoded keys 的字典 k 记做

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值