半监督学习-CSDN博客

本文链接：https://blog.csdn.net/Rhett_Butler0922/article/details/147495474

1. 半监督学习的基本概念

1.1 什么是半监督学习？

半监督学习（Semi-Supervised Learning, SSL）是一种机器学习方法，结合了少量标注数据（labeled data）和大量未标注数据（unlabeled data）来训练模型。它介于监督学习（所有数据都有标签）和无监督学习（所有数据无标签）之间，旨在通过未标注数据的潜在结构信息提升模型的泛化能力。

监督学习：数据集 $D = \{(x_i, y_i)\}_{i=1}^n$ ，每个样本 $x_i$ 都有标签 $y_i$ 。
无监督学习：数据集 $D = \{x_i\}_{i=1}^n$ ，没有标签，通常用于聚类或降维。
半监督学习：数据集 $D_l \cup D_u$ ，其中：
- 标注数据集 $D_l = \{(x_i, y_i)\}_{i=1}^l$ ，数量少（ $l$ 小）。
- 未标注数据集 $D_u = \{x_j\}_{j=l+1}^{l+u}$ ，数量多（ $\gg l$ ）。

目标：学习一个模型 $\to Y$ ，利用 $D_l$ 和 $D_u$ 最小化测试误差。

1.2 为什么需要半监督学习？

标注成本高：标注数据需要大量人力、时间和专业知识。例如，医学影像标注需要医生，文本情感分析需要语言专家。
未标注数据丰富：未标注数据易于获取，如网络图片、用户日志、传感器数据。
性能提升：半监督学习能在标注数据稀缺时显著提高模型性能，接近甚至超越全监督学习。

1.3 半监督学习的基本假设

半监督学习的有效性依赖于以下假设：

平滑性假设：如果 $x_1, x_2$ 在特征空间中接近（ $x_1 - x_2||$ 小），则标签 $y_1 \approx y_2$ 。
簇假设：数据点形成簇，同一簇内的点通常属于同一类别。
流形假设：高维数据位于低维流形上，未标注数据帮助学习流形结构。
低密度分离假设：决策边界应通过低密度区域，避免穿过高密度区域。

这些假设确保未标注数据能提供有用的信息。

2. 半监督学习的数学框架

半监督学习的数学框架通过联合优化监督损失和无监督损失，利用标注数据和未标注数据的特性来训练模型。以下是详细的数学形式化描述和推导。

2.1 数据定义

标注数据： $D_l = \{(x_i, y_i)\}_{i=1}^l$ ，其中 $x_i \in \mathbb{R}^d$ 是特征向量， $y_i \in Y$ 是标签（分类任务中 $\{1, 2, \dots, C\}$ ，回归任务中 $\subseteq \mathbb{R}$ ）。
未标注数据： $D_u = \{x_j\}_{j=l+1}^{l+u}$ ，其中 $x_j \in \mathbb{R}^d$ 。
总数据集： $D_l \cup D_u$ ，通常 $\gg l$ 。
测试数据： $D_{\text{test}} = \{(x_k, y_k)\}_{k=1}^m$ ，用于评估模型。