基于标签传播
的半监督典型相关分析(Semi-supervised Canonical Correlation analysis based on Label Propagation, LPbSCCA)是一种结合了典型相关分析
(CCA)和标签传播技术
的半监督学习方法
,由Shen等人提出。
该方法特别适用于处理只有部分样本带有标签的多视图数据集
,旨在利用少量的标注信息来改善无监督数据的表示学习。
LPbSCCA的目标
LPbSCCA的目标是在两个或多个视图(数据集)之间学习一组共享的潜在表示
,即使得每个数据集的潜在表示
在CCA的意义上具有最大的相关性
,同时利用有限的标签信息
来指导学习过程,以提高表示学习的效果和分类性能。
标签传播
标签传播是一种常用的半监督
学习技术,用于从少量标记样本
中推断大量未标记样本的标签。
该技术基于这样的假设:如果两个样本在特征空间中很接近,那么它们很可能属于同一类别
。
在LPbSCCA中,Shen等人利用标签传播技术来估计未标记样本的类信息,进而辅助CCA学习。
LPbSCCA的数学框架
假设我们有两个数据集 和 ,每个数据集包含 个样本,但可能有不同的特征维度
和
其中,一部分样本带有类别标签,而大部分样本是未标记的。
LPbSCCA的目标是找到两个非线性变换 和 ,其中 和 是对应的网络参数
,使得变换后的数据在CCA的意义上具有最大的相关性
,同时利用标签传播技术来估计未标记样本的类别信息
,以指导学习过程。
LPbSCCA的损失函数
LPbSCCA的损失函数通常包含两个部分:
- CCA损失:用于最大化变换后数据集之间的
相关性
,类似于DCCA中的CCA损失。
- 标签传播损失:用于
利用已知的标签信息和样本间的相似度来推断未标记样本的类别信息
,通常通过构建邻接图和标签传播算法来实现。
具体的损失函数可以表示为:
其中,
- 是CCA损失,用于最大化两个变换后数据集之间的
相关性。
- 是标签传播损失,用于
利用已知的标签信息和样本间的相似度来推断未标记样本的类别信息。
公式解析
- 和
- 和
- :变换后的数据 和
训练过程
LPbSCCA的训练过程涉及使用梯度下降或其他优化算法
来最小化上述定义的损失函数。
这意味着要调整网络参数
和
结论
LPbSCCA提供了一种有效的框架,用于处理部分标记的多视图数据集
,特别是在数据标注成本高昂或难以获取的情况下。
通过结合CCA和标签传播技术,LPbSCCA能够从有限的标注信息中学习高质量的共享表示,这对于各种实际应用场景,如图像分类、文本分类和生物信息学分析等,都有着重要的意义。