自监督学习系列(四):基于蒸馏的图片掩码学习

本文探讨了利用CLIP特征作为目标特征的自监督学习方法,包括MILAN、BEiT-v2和MASKDISTILL等算法。这些方法通过增强目标特征的语义信息,提升了模型收敛速度和下游任务的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前文

好久不见!自监督系列文章继续更新啦!在前几期的文章我们介绍了基于辅助任务,对比学习,和图片掩码学习的自监督学习范式

(对比学习,图片掩码学习其实也可以归属于基于辅助任务的自监督学习,由于这两类是目前最流行的研究方向,所以我们在此进行这样的区分)。

有感兴趣的读者可以查看前几期的文章:

https://zhuanlan.zhihu.com/p/470914640

https://zhuanlan.zhihu.com/p/474847821

https://zhuanlan.zhihu.com/p/475952825

由于 BEiT 和 MAE 的推出,目前自监督预训练领域的发展仍然是:改进现有的图片掩码学习模型。从前一期的文章可以知道,很多掩码学习的工作都以纯 RGB 像素值作为预测的目标,这些方法的具体操作步骤为:

  1. 将一张图片划分为多个 patch;
  1. 随机覆盖掉其中的一部分 patch, 并将剩余的 patch 送入网络;
  1. 用网络预测的被覆盖掉的 patch 去拟合这些 patch 的真实的像素值。

这些方法以 MAE 为代表,这样做的好处是整个模型的结构简单,计算量小。但是纯 RGB 像素作为预测目标也有两个明显的劣势:

  1. 纯像素值是 low-level 的特征,模型往往需要预训练更长的迭代次数才能够达到一个不错的效果;
  1. 模型容易通过训练一些捷径,例如像素插值,来完成这样一个重建的任务,所以采用纯 RGB 像素作为预测目标的模型往往需要一个非常大的 mask ratio,例如,MAE 采用了 0.75,SimMIM 采用了 0.6。

目前大多数方法主要是针对下面两个方面进行优化:

  1. 重建目标,将 RGB 像素替换为具有丰富语义信息的模型输出的特征,例如,CLIP 输出特征;
  1. 引入额外的任务,例如,CMAE 除了重建任务以外,引入了一个对比学习的任务。

今天这篇文章就主要围绕重建目标介绍几篇典型的文章:MILAN、BEiT-v2、MASKDISTILL。下表展示了这几个算法的概要。

MethodBackboneDecoderTargetlinftseg
MILANViT-BPrompt-decoderCLIP78.985.452.7
MASKDISTILLViT-BFCCLIP-85.554.3
BEiT-v2ViT-BFCVQ-KD80.185.052.7

MASKDISTILL

TL;DR: 图片掩码学习的统一范式

MASKDISTILL 站在一个更高角度审视现有的图片掩码模型算法,将其抽象为下图的结构,简而言之就是,一张图片经过 mask 送入一个 encoder,这些 encoder 的选择多种多样,例如 ViT 和 Swin;然后将 encoder 输出的特征送入一个 head,这个 head 可能是一个线性层,也有可能是一个具有多层的 decoder。

图 1

而对于 target 特征,也存在多种选择,例如纯像素、CLIP 之类的,然后 target 经过一个 normalization 层,最终输出,并完成和预测特征的匹配。

基于这个统一的框架,MASKDISTILL 使用 CLIP 作为 target,以及使用 smooth-l1 loss,在没有其他额外技术的加持下,也可以取得不错的效果。下表展现了 MASKDISTILL 与目前大多数主流自监督学习方法的一个比较:

MILAN

划重点:CLIP target, Prompting Decoder, Semantic Aware Sampling

另外 MMSelfSup 现已支持 MILAN,欢迎体验

https://github.com/open-mmlab/mmselfsup/tree/dev-1.x/configs/selfsup/milan

从下图可以看出 MILAN 具有三个重要部分:

  • CLIP target
  • Prompting Decoder
  • Semantic Aware Sampling

图 2

CLIP target

CLIP 为 OpenAI 推出的多模态大规模预训练模型。其通过在大量的图文对上进行大规模的对比学习,使得 image encoder 分支具有捕捉图片高维语义的能力,其训练范式如下图所示:

图 3

使用 CLIP 特征作为预测 target 可以极大地提升模型的性能,从下表第 1 和第 2 组消融实验可以看出。同时,相较于其他的 target,例如 SLIP,CLIP 具有明显的优势,这一点从下表的第 8 组和第 9 组实验可以看出。

其实,相较于这些模型,之前的模型例如 BEiT 也采用了预训练模型(DALLE)输出的特征作为预测的,但是由于这些预训练模型本身性能的问题,使得最终模型的性能也是不尽人意。

Prompt Decoder

相较于 MAE 采用的使用自注意力机制作为 decoder 的基础模块,MILAN 采用的是一种类似于 CAE 所使用的 cross attention 机制。

这种机制最主要的特征是在解码阶段只会去更新 mask token 的特征,而保持 encoder 输出的可见 token 的特征不变。

这样做的一个明显的好处就是可以降低解码阶段的计算量。同时在与 CLIP target 配合使用的时候,可以进一步提升模型的精度。

Semantic Aware Sampling

目前大多数图片掩码学习的算法都是使用的随机掩码策略,这种策略虽然简单,但是对需要 mask 的区域进行无差别的对待,可能使得很多具有更多语义信息的地方被 mask 掉(如,前景物体)。

所以 MILAN 采用了一个 semantic aware 的 mask 策略。具体而言就是,通过 CLIP 输出的特征,计算各个地方被 mask 的概率,依赖这种概率去 mask 图片,使得具有丰富语义信息的地方得以保留。

由于 CLIP 的特征具有提取图片语义的能力,所以这种策略是合理的。通过上表的第 4 组实验也可以看出,这种策略也是有效的。

BEiT-v2

TL;DR: VQ-KD 训练, Class Token Pretraining

MMSelfSup 现已支持 BEiT( https://github.com/open-mmlab/mmselfsup/tree/dev-1.x/configs/selfsup/beit ), 同时 BEiT-v2 也在加速支持中

BEiT-v2 是 BEiT 的拓展,两者主要的差距在于以下两点:

  1. BEiT-v2 使用 CLIP 作为 teacher,自己设计了一套范式蒸馏得到了一个具有更好性能的目标提取器;
  1. 为了使得 class token 具有整张图的全局表达能力,将 encoder 最后一层的 cls token 连同其中某一层的特征一起送入了一个比较轻量的 decoder,从而引入另外一个重建损失。

VQ-KD

VQ-KD 的训练方式如下图所示,对于每一张图片,encoder 吐出的特征去一个预先定义好的 Codebook 寻找一个离当前特征最近的一个特征,然后将这个找到的特征喂入后面的 decoder 重建 CLIP 输出的特征。当训练结束之后,只有图中的 tokenizer encoder 被用于后面预训练中的目标特征提取。

图 4

Class Token Pretraining

如图 5 的右侧所示,Class Token Pretraining 的具体做法是将 encoder 最后一层的 class token 连接到encoder 的其中某一层输出的 token,这新组成的一组输入喂入额外的一个 encoder 中进行解码,最终完成整张图特征的重建。这样做的目的是为了改善 class token 的全局特征表达能力。

图 5

这样做,本人认为基于的一个假设应该是:只有最后一层的 class token 具有良好的全局表达能力,其才可能在解码阶段将图片的全局语义传递给其他 token,从而完成整张图的重建。通过下表的消融实验也可以发现,class token pretraining 可以极大地改善模型的 linear probing 精度。

总结

今天我们讲了目前几种基于 CLIP 的图片掩码学习算法,总结一下,采用 CLIP 的特征作为目标特征,由于这种特征包含丰富的语义信息,相较于使用纯像素的方法,其收敛更快(例如,MILAN 预训练 400 epoch 也能够达到不错的效果), 下游表现更好。

但是,采用这种方式也会让整个预训练的 pipeline 变得更加复杂,同时引入额外的计算量。

目前,MMSelfSup 已经支持了目前主流的图片掩码学习算法,如 MAE, SimMIM, CAE,以及上面提到的 MILAN, 对于上文提到的其他几种蒸馏类型的图片掩码学习算法也在积极支持中, 欢迎大家使用 MMSelfSup,如果发现不错,也希望大家多多 Star、Issue 和 PR!

<think>嗯,用户让我介绍一下前沿的深度学习感知算法,首先我需要理解他们到底想了解什么。可能他们是对计算机视觉或者自然语言处理中的最新进展感兴趣?或者是想了解这些算法在实际中的应用? 首先,我应该明确深度学习感知算法主要涉及哪些领域。感知通常指的是计算机通过传感器数据(如图像、声音、文本等)理解环境的能力,所以可能包括计算机视觉、语音识别、自然语言处理这些方面。前沿的算法可能包括Transformer架构、自监督学习、多模态模型等等。 接下来,我需要考虑用户的背景。如果他们不是专业人士,可能需要用比较易懂的语言解释,避免太多技术术语。但问题中用户可能有一定的技术基础,因为他们提到了“深度学习”和“感知算法”,所以可以适当深入,但保持清晰的结构。 然后,我应该分几个主要类别来介绍这些算法。比如计算机视觉中的目标检测、分割,自然语言处理中的预训练模型,多模态模型如CLIP,还有生成模型如扩散模型。此外,可能还需要提到一些优化方法,比如高效计算、自监督学习等,这些都是当前的研究热点。 需要注意用户可能对应用场景也感兴趣,所以每个算法部分最好加上实际应用的例子,比如自动驾驶、医疗影像分析等。这样可以让用户理解这些技术如何落地。 另外,用户可能想知道这些算法的最新进展,比如2023年的新模型,例如GPT-4、Stable Diffusion等,或者一些改进的架构,如Vision Transformer的变体。需要确保信息是最新的,但也要注意有些模型可能还未被广泛验证。 还要考虑是否存在潜在的后续问题,比如用户可能想了解某个具体算法的细节,或者比较不同算法的优缺点。因此,在介绍时可以适当提到它们的优势,比如Transformer的长距离依赖处理能力,或者扩散模型生成的高质量图像。 最后,总结部分需要概括这些算法的共同趋势,比如模型效率、多模态融合、自监督学习等,帮助用户把握整体发展方向。同时,指出挑战,如数据需求、计算成本,可能也是用户关心的点。 在组织内容时,结构要清晰,分点列出,每个算法类别下给出几个例子,并简要说明原理和应用。这样用户能够快速获取信息,同时有进一步搜索的方向。</think>前沿深度学习感知算法是计算机视觉、语音识别、自然语言处理等领域的重要技术方向,近年来在模型架构、训练方法、多模态融合等方面取得了显著进展。以下是几个关键方向及代表性技术: --- ### **1. Transformer 架构的全面渗透** - **核心思想**:通过自注意力机制(Self-Attention)捕捉长距离依赖关系,替代传统CNN/RNN。 - **前沿应用**: - **视觉Transformer(ViT, Swin Transformer)**:将图像切分为序列输入Transformer,在分类、检测任务中超越CNN。 - **多模态模型(CLIP, DALL·E)**:联合训练图像-文本对,实现跨模态检索与生成(如文本生成图像)。 - **高效变体**:Flash Attention、稀疏注意力(Sparse Attention)优化计算效率。 --- ### **2. 自监督学习(Self-Supervised Learning)** - **特点**:无需人工标注,利用数据自身结构生成监督信号。 - **前沿方法**: - **对比学习(Contrastive Learning)**:如SimCLR、MoCo,通过增强样本的相似性学习特征表示。 - **掩码建模(Masked Modeling)**:BERT(文本掩码预测)、MAE(图像掩码重建)通过恢复被遮挡部分学习语义。 - **扩散模型(Diffusion Models)**:通过逐步去噪生成数据,如Stable Diffusion、DALL·E 3。 --- ### **3. 三维感知与神经渲染** - **目标**:从2D图像理解3D场景。 - **关键技术**: - **NeRF(Neural Radiance Fields)**:通过神经网络隐式建模3D场景的光场,实现高质量视图合成。 - **动态场景建模**:如Dynamic-NeRF、Gaussian Splatting,支持动态物体和实时渲染。 - **多传感器融合**:激光雷达(LiDAR)+ 摄像头的端到端感知(如自动驾驶算法)。 --- ### **4. 高效轻量化模型** - **需求**:在移动端/边缘设备部署高精度模型。 - **技术方向**: - **神经网络压缩**:知识蒸馏(Knowledge Distillation)、量化(Quantization)、剪枝(Pruning)。 - **动态计算**:如Mixture of Experts(MoE),根据输入动态分配计算资源。 - **硬件协同设计**:如Tesla Dojo芯片与自动驾驶算法的联合优化。 --- ### **5. 多模态融合与具身智能** - **趋势**:结合视觉、语言、动作等多模态信息,实现更接近人类的感知能力。 - **案例**: - **机器人感知**:如Google RT-2,通过视觉-语言-动作联合训练实现复杂指令理解。 - **具身AI(Embodied AI)**:在仿真环境(如Habitat)中训练智能体感知-决策闭环。 --- ### **6. 生成式感知与开放世界理解** - **挑战**:从封闭场景扩展到开放世界,处理未知类别和长尾分布。 - **解决方案**: - **开放词汇检测(Open-Vocabulary Detection)**:如OV-DETR,利用文本编码器支持任意类别识别。 - **零样本/少样本学习**:基于预训练模型(如GPT-4V)实现无需微调的跨任务泛化。 --- ### **典型应用场景** - **自动驾驶**:BEV(Bird's Eye View)感知、Occupancy Networks预测3D占据空间。 - **医疗影像**:Diffusion Model生成合成数据辅助诊断。 - **AR/VR**:NeRF实时渲染与场景重建。 --- ### **未来趋势** 1. **模型大一统**:跨任务、跨模态的统一架构(如Meta SAM 分割一切模型)。 2. **因果推理**:从关联学习到因果感知,提升模型可解释性。 3. **生物启发**:借鉴人类感知机制(如事件相机模拟视网膜处理动态场景)。 这些技术正在推动AI从“感知”向“认知”演进,但同时也面临数据效率、能耗、安全伦理等挑战。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值