深度学习笔记（2）——自监督学习

yvestine

已于 2024-12-26 20:34:32 修改

阅读量821

点赞数 23

分类专栏：深度学习文章标签：深度学习笔记人工智能

于 2024-12-25 17:16:42 首次发布

本文链接：https://blog.csdn.net/m0_74259787/article/details/144723774

版权

深度学习专栏收录该内容

12 篇文章

订阅专栏

自监督学习

Downstream Task下游任务:评估任务(分类、目标检测、语义分割等),即建立在预训练模型之上的具体应用任务

Pretext Task:对目标任务有帮助的辅助任务

自监督学习主要是利用辅助任务(Pretext)从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。

也就是说自监督学习的监督信息不是人工标注的，而是算法在大规模无监督数据中自动构造监督信息，来进行监督学习或训练。

自监督学习最主要的目的就是学习到更丰富的语义表征,让模型懂得输入究竟是什么，从而帮助下游任务。

常见的Pretext Task

1. 预测旋转角度

2. 预测图像块位置

3. 预测图象拼图(jigsaw)

4. 预测缺失的像素

5. 通过图像重建进行Inpainting

6. 图像着色

7. 视频着色(视频着色与跟踪紧密相关)

如何评估自监督学习方法

1. pretext task 性能:从pretext task中学习好的特征提取器,使用少量有标签数据在目标任务上训练浅层网络

2. 特征质量:线性分类效果、聚类、t-SNE可视化

3. 鲁棒性和泛化性:不同数据集和不同变化

4. 计算效率:训练时间和训练所需资源

5. 迁移学习和Downstream Task性能

我们并不关心这些Pretext Task的性能,而是关心这些学习到的特征对于Downstream Task(分类、检测、分割)的效果,这也是对比学习的衡量标准。

找到合适的辅助任务(pretext)对于自监督学习是最需要解决的问题

数据和资源越多，自监督预训练的效果会更好

更通用的pretext task:对比学习

对比学习的形式化定义 $score(f(x),f(x^+))>>score(f(x),f(x^-))$ ,即鼓励相似的实例在学习的嵌入空间中被映射得更近,同时将不相似的实例推得更远,对比学习允许模型捕获数据中的相关特征和相似性。

InfoNCE Loss: $L=-E_X[log\frac{e^{score(f(x),f(x^+))}}{e^{score(f(x),f(x^+))}+\sum_{j=1}^{N-1}e^{score(f(x),f(x^-_j))}}]$

N路softmax分类器的交叉熵损失,即学会从N个样本中找出正样本。

SimCLR

余弦相似度,通过数据增强生成正样本(随即裁剪、随机颜色失真、随机模糊)

SimCLR的思路:(1) 先sample一些图片组为batch;(2) 对batch里的image做两种不同的data augmentation;(3) 希望同一张图像、不同augmentation的结果相近,并互斥其他结果。

SimCLR设计选择:特征投影,利用投影头g(),可以在特征空间h中保留更多信息。投影网络获取编码器网络的输出并将其投影到低维空间,通常称为投影或嵌入空间。这个额外的投影步骤有助于增强所学习的表示的辨别能力。通过将表示映射到较低维的空间,投影网络降低了数据的复杂性和冗余,有助于更好地分离相似和不相似的实例。非线性投影头和强数据增强对于对比学习至关重要，相似的点投到低微空间中,会有较近的距离。

大型训练批量对SimCLR至关重要,但大批量会导致反向传播过程中占用大量内存,需要在TPU上进行分布式训练。