[论文学习] Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey

L. Jing and Y. Tian, “Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, no. 11, pp. 4037-4058, 1 Nov. 2021, doi: 10.1109/TPAMI.2020.2992393.
笔者注:这篇文章主要是self supervised method在DNN中应用的综述,有比较多的迁移学习方法,值得关注。

论文理解阅读

0. Abstract
为了从计算机视觉应用的图像或视频视觉特征学习中获得更好的视觉特征性能,通常需要大规模的标记数据来训练深度神经网络。为了避免收集和标注大规模数据集的大量成本,作为无监督学习方法的一个子集,提出了自监督学习方法,从大规模的无标记数据中学习一般的图像和视频特征,而不使用任何人工标注的标签。本文对图像或视频中基于深度学习的自监督一般视觉特征学习方法进行了广泛的综述。首先,描述了该领域的动机、pipeline和术语。然后总结了用于自监督学习的常用深度神经网络结构。接下来,我们回顾了自监督学习方法的图式和评价指标,然后是常用的图像、视频、音频和三维数据的数据集,以及现有的自监督视觉特征学习方法。最后,总结并讨论了在基准数据集上所回顾的方法在图像和视频特征学习方面的定量性能比较。最后,本文总结了自监督视觉特征学习的未来发展方向。

1. Introduction

1.1 Motivation
a. 为避免耗时昂贵的数据标注任务,self-supervised method常采用设置pretext task的方式来学习特征,从而达到预训练的目的。
b. 在知识迁移的过程中,通常只有前几层的一般特性会被转移到downstream task;

1.2 Term Definition
a.pretext task可以理解为G(x): x -> x的一种函数,本质是寻找源域数据中的内在联系,在此过程中可以学习到部分特征,从而辅助目标任务F(x): x -> y的训练。 常用的pretext task有rotation, colorization, Jigsaw Puzzle/Context Prediction (可能对轨迹预测有帮助);在这里插入图片描述

b. downstream task:用于评估self-supervised learning学习到的特征质量,在数据缺乏的情况下pre-train对task的收益很高。 并且对于这类task来说,human-annotated label不是必须的;
c. Semi-supervised Learning:用少量标记数据和大量未标记数据的学习方法;

2. Common Deep Network Architecture
a. DNN在数据缺乏时容易过拟合,因为网络中参数量极大;
b. pre-train & fine-tune 有助于提高在小数据集上的表现结果;

3. Commonly Used Pretext and Downstream Tasks
a. 训练流程:
(1)定义一个pretext task,在完成这个task的过程中学习视觉特征;
(2)pretext task的伪标签在过程中自动生成,通过最小化伪标签P与预测模型O之间的误差来优化;
(3)完成训练后得到能够捕捉视觉特征的ConvNet模型;
在这里插入图片描述
3.1 Learning Visual Features From Pretext Tasks
a.主要pretext task: foreground object segmentation, image inpainting, clustering, image colorization, temporal order verification, visual audio correspondence verification……(e.g. 以图像着色为例,图像着色是将灰度图像着色成彩色图像的任务。为了生成真实的彩色图像,网络需要学习图像的结构和上下文信息。在这个借口任务中,数据X是通过对RGB图像进行线性变换可以生成的灰度图像,而伪标签P是RGB图像本身。训练对Xi和Pi可以实时生成,而成本可以忽略不计。使用其他借口任务的自我监督学习也遵循类似的管道。)

3.2 Commonly Used Pretext Tasks
a. pretext task分类:generation-based, context-based, free semantic
label-based, cross modal-based;
b.generation-based:在解决pretext task过程中学习特征, 常用方法有 image colorization, image super resolution, image inpainting, image generation with Generative Adversarial Networks (GANs) (基本是通过low level的图像任务来提取语义信息)
c.Context-Based Pretext Tasks:task设计主要采用图像的语义特征,如语境相似性、空间结构、时间结构等, 如clustering(相似性)

后续论文主要为pretext task介绍,价值不大。略过,之后会有调研PPT放出。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值