Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey

YoooooL_

已于 2024-02-03 00:41:22 修改

阅读量791

点赞数

分类专栏：论文阅读笔记文章标签：深度学习人工智能

于 2022-11-17 10:42:31 首次发布

本文链接：https://blog.csdn.net/YoooooL_/article/details/127899462

版权

论文阅读笔记专栏收录该内容

95 篇文章

订阅专栏

大规模数据集上的预训练模型可以加快训练过程，并提高相对较小数据集上的性能。

为了减轻大规模数据集标注的负担，通常设计一个前置任务供网络求解，而前置任务的伪标签是基于数据属性自动生成的。

根据用于设计借口任务的数据属性，如图 10 所示， 我们将前置任务总结为四类：基于生成、基于上下文、基于自由语义标签和基于跨模态。

基于生成的自监督学习的 伪标签一般是图像自身。

拼图任务：为了限制排列的数量，通常使用汉明距离从所有排列中选择一个具有相对较大汉明距离的子集。只有选定的排列用于训练

基于 自由语义标签：① 游戏引擎生成标签。由于游戏引擎可以以可忽略不计的成本生成大规模数据集，因此各种游戏引擎(如Airsim [142]和Carla [143])已被用于生成具有高级语义标签的大规模合成数据集。然而，由于合成图像和真实世界图像之间的域差距，纯粹在合成图像上训练的ConvNet不能直接应用于真实世界图像。为了利用合成数据集进行自我监督的特征学习，需要明确弥补领域差距。

②硬编码生成标签。这类方法的总体思想都是从硬代码检测器中提取知识。硬编码检测器可以是边缘检测器、显著检测器、相对检测器等。只要在检测器的设计中不涉及人类注释，那么检测器就可以用来生成用于自我监督训练的标签。

视频特征：①基于生成：视频预测：由于对视频中的长期动态建模的强大能力，LSTM被用于编码器和解码器中[37]。大多数框架遵循编码器-解码器流水线，其中编码器根据给定的视频剪辑对空间和时间特征进行建模，解码器根据编码器提取的特征生成未来的帧。

②基于 上下文：然而，这些方法通常需要大量的数据集准备步骤。用于训练网络的帧序列是基于光流的大小来选择的，并且光流的计算过程昂贵且缓慢。因此，自监督视频特征学习需要更直接和更省时的方法。

③基于 跨模态：基于RGB-光流：光流编码相邻帧之间的对象运动，而RGB帧包含外观信息。与特定于模态的信息相比，跨不同模态的交互信息通常具有更高的语义含义。

基于自我运动：自动驾驶汽车通常配备各种传感器，在街道上驾驶汽车可以很容易地以很低的成本采集大规模的自我中心视频和自我运动信号。自动驾驶汽车可以被视为在场景中移动的摄像机，因此摄像机捕捉的视觉数据的自我运动与汽车的相同。

性能表现：:(1)不同层次的特征总是受益于自我监督的前置任务训练。自我监督学习方法的性能总是优于从零开始训练的模型的性能。(2)所有自监督方法对conv3和conv4层的特性表现良好，而对conv1、conv2和conv5层的特性表现较差。这可能是因为浅层捕获一般的低级特征，而深层捕获前置任务相关的特征。(3)当用于前置任务训练的数据集和下游任务的数据集之间存在领域差距时，自监督学习方法能够达到与用ImageNet标签训练的模型相当的性能。

如表5所示，自监督模型在分割和检测数据集上的性能非常接近于在预训练期间用ImageNet标签训练的监督方法的性能。具体而言，在对象检测和语义分割任务上的性能差异幅度小于3%，这表明通过自监督学习学习的特征具有良好的泛化能力。在所有的自我监督学习方法中，深度聚类[44]在所有任务上都获得了最好的性能。

性能:对于图像特征自监督学习，由于精心设计的前置任务，自监督方法的性能在一些下游任务上与监督方法相当，特别是对于目标检测和语义分割任务。在目标检测和语义分割任务上的性能差异小于3%,这表明通过自监督学习得到的特征具有良好的泛化能力。

视频特征自监督学习方法的性能仍然远远低于下游任务的监督模型的性能。基于3DConvNetbased的方法在UCF101数据集上的最佳性能比监督模型低18%以上[70]。3DConvNets自监督学习方法的较差性能可能是因为3DConvNets通常具有更多的参数，这导致容易过拟合以及由于视频的时间维度而导致的视频特征学习的复杂性。

当前的解决方案是使用下游任务的性能来指示特性的质量。然而，这种评估标准并不能洞察网络通过自我监督的预训练学到了什么。

game engines：如何弥补领域鸿沟 bridge the domain gap

web data：如何处理数据及其相关的元数据的噪声