（CVPR 2025）你以为SSL不行，其实是“数据太杂”了！这招统一框架解千愁

本文链接：https://blog.csdn.net/m0_59235945/article/details/147170175

论文介绍

题目：A Unified Framework for Heterogeneous Semi-supervised Learning

论文地址：https://arxiv.org/pdf/2503.00286

创新点

1. 提出了一个新问题设置：异构半监督学习（Heterogeneous Semi-Supervised Learning, HSSL）

该问题结合了半监督学习（SSL）和无监督域适应（UDA）的特点，但又超越了两者的传统假设。
在 HSSL 中，有标签数据和无标签数据来自不同的域（domain），虽然它们共享同一个语义类别集合，但其类标签分布和特征分布不同。
这与传统 SSL 假设数据来自同一分布、UDA 假设目标域仅为无标签数据的情况都不同，更贴近真实世界中的应用场景。

2. 提出了一个统一的解决框架 Uni-HSSL

Uni-HSSL 是第一个真正统一式地处理异构半监督数据的框架，不像之前的方法分开对不同域建模或依赖外挂的伪标签生成器（如 BiAdapt）。

该框架包含三个关键技术组件，每一个都设计用于解决 HSSL 的挑战：

(a) 加权移动平均伪标签更新（WMA Pseudo-labeling）

使用指数滑动平均更新无标签数据的伪标签，避免噪声伪标签导致的不稳定训练。
只有当模型对某个样本的预测置信度超过阈值时，才使用其伪标签参与训练，增强伪标签质量控制。

(b) 跨域原型对齐（Cross-domain Prototype Alignment）

对于语义一致的类别（例如两个域中的“猫”），学习使其在嵌入空间中原型向量对齐。
使用对比学习式的损失函数，最大化对应类别间的相似度，最小化非对应类别间的相似度。

© 渐进式跨域 MixUp 数据增强（Progressive Inter-domain Mixup）

将有标签样本和无标签样本以 MixUp 的方式混合生成合成训练样本。
引入逐步增强的混合系数策略：初期更靠近有标签数据，后期逐渐靠近无标签数据，使模型稳步适应无标签域的分布。

3. 提出使用 2C 类别空间进行细粒度建模

将 C 个共享语义类别分别为两个域分别建模，形成 2C 的分类器。
这样显式建模两个域的特征差异，避免使用额外的域分类器，同时使特征提取器能更好地泛化于两域数据。

摘要

在本研究中，我们引入了一种新的问题设定，称为异构半监督学习（Heterogeneous Semi-Supervised Learning, HSSL）。该设定结合了半监督学习（SSL）与无监督域自适应（UDA）的任务特点，扩展了标准半监督学习，以适应异构训练数据的挑战。

HSSL 的核心目标是利用来自不同域的有标签和无标签训练数据（它们共享同一组语义类别）来学习一个预测模型，从而对来自这两个域的测试样本进行语义分类。然而，这些异构域在类别分布和特征分布上存在显著差异，这种异构性加之测试数据来源的多样性，使得传统的 SSL 和 UDA 方法难以直接应对。

为了解决 HSSL 所面临的挑战，我们提出了一种统一的异构半监督学习框架（Uni-HSSL）。该方法通过直接从异构数据中学习一个细粒度的分类器，自适应地处理域间的异质性，同时利用无标签数据和域间语义类别的关系，实现跨域的知识迁移与适应。

我们在多个数据集上进行了全面的实验，实验结果表明，所提出的 Uni-HSSL 方法在性能上优于现有的最先进半监督学习和无监督域自适应方法，验证了其有效性和先进性。

模型整体结构

论文中提出的模型名为 Uni-HSSL（Unified Framework for Heterogeneous Semi-Supervised Learning），其整体结构主要由以下几个阶段和模块组成，对应的数学公式也有明确指向。

🧩 模型整体结构概览

Uni-HSSL 采用一个统一的2C类别空间分类器，由以下几部分组成：

预训练阶段（Supervised Pre-training）
伪标签生成与更新模块（WMA Pseudo-labeling）
跨域语义原型对齐模块（Cross-Domain Prototype Alignment）
渐进式跨域 MixUp 增强模块（Progressive Inter-Domain Mixup）
联合训练损失函数

模块与公式对应关系

1. 预训练阶段（Supervised Pre-training）

目的：在有标签域DL 上训练一个初始的分类器。
模型结构：特征提取器 f + C 类分类器 g
损失函数：

使用该模型对无标签数据生成初始伪标签：

扩展为 2C 维伪标签向量（第一个 C 位为 0）：

2. 正式训练阶段（2C 类分类器）

结构：共享特征提取器 f，2C 类分类头 h
有标签数据损失（扩展标签空间）：

3. 加权移动平均伪标签模块（WMA Pseudo-labeling）

用于更新无标签样本的伪标签：

对高置信伪标签样本使用交叉熵损失：

4. 跨域语义原型对齐（Prototype Alignment）

每个类在两个域中都计算原型向量 pk,pC+k
有标签域：

无标签域（仅用高置信伪标签）：

对应类别间使用对比损失进行对齐：

5. 渐进式跨域 MixUp 模块（Progressive Inter-Domain Mixup）

合成样本生成公式：

渐进式 mixup 系数控制：

使用均方误差损失训练 mixup 样本：

最终联合损失函数（Joint Objective）

消融实验结果

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述