How Well Do Self-supervised Models Transfer论文阅读笔记

git仓库:github链接

论文地址:论文下载链接

Linus Ericsson, Henry Gouk, Timothy M. Hospedales. How Well Do Self-Supervised Models Transfer? Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 5414-5423.

目录

1 研究背景

2 研究目标及结论

3 先前的一些评估和基准方法

4 实验结果

4.1 Many-shot Recognition(Many-shot识别)

 4.2 Few-shot Recognition(Few-shot识别)

 4.3 Detection(目标检测)

 4.4 Surface Normal Estimation(表面法向量估计)和Semantic Segmentation(语义分割)


1 研究背景

        自监督视觉表征学习近年来取得了巨大进展,但目前已有的许多预训练方法得到的模型,尚未进行大规模的评估其在不同下游任务中的泛化能力,因此,作者提出了一系列开放性问题:

  • 现有自监督表征学习中采用了不同的代理任务和数据增强,哪些方法是实证最有效的?由于每种方法在各自论文中评估条件的共性有限,难以进行对比。
  • 目前广泛采用的基准指标是图像分类性能,同时希望预训练的表征能够泛化到其他下游任务。然而,现有自监督预训练方法在其他下游任务中的基准测试方法不一致。研究人员希望在ImageNet识别上表现良好的方法也能在其他下游任务表现良好,但这个猜想从来没有经过系统的实证检验。
  • 基于ImageNet数据集预训练的特征,在多大程度上能泛化到这些不同的下游任务?

2 研究目标及结论

        论文主要目标是解答以下四个问题:

问题1:对于不同的下游数据集和下游任务,最先进的自监督与有监督方法相比如何?

  • 答:最好的自监督方法在Many-shot识别、目标检测、表面法向量估计、语义分割等下游任务都超过了有监督表征学习。但在ImageNet小领域偏移的Few-shot识别中,有监督表征学习更优。
  • 领域偏移(Domain Shift)定义:一种因为对观察变量的描述方式或者观察系统上的变化而导致的输入空间的分布偏移。具体来说,就是如果在一个问题中预测y的决定因子是隐变量x_{0},虽然隐变量x_{0}确乎存在,但观察到的却是x_{0}的一个映射x=f\left ( x_{0} \right )。而这样的映射f因数据集而异,因此造成数据集之间虽然相关因子(Casual Factor)相同,但是有着不同的混淆因子(Confounding Factor),从而导致了不同数据集分布之间的差异。
  • 论文中提及的表征学习方法:
    • 基于对比:InsDis、MoCo-v1、Moco-v2、PIRL、SimCLR-v1、SimCLR-v2、InfoMin、BYOL
    • 基于聚类:PCL-v1、PCL-v2、SeLa-v2、DeepCluster-v2、SwAV
图1 不同预训练方法模型的训练细节,其中星号(*)标注模型是从PyContrast而不是从原作者获得。

问题2:自监督表征在ImageNet识别上性能良好,是否代表了在不同的下游数据集及下游任务上也表现良好?

表2-1 ImageNet与下游任务之间的相关性
任务类型 下游任务 下游任务数据集 相关性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值