典型相关性分析(Canonical Correlation Analysis, CCA)是经典的挖掘视图相关 性的多视图子空间学习方法[38],主要是计算两视图
特征的最大线性投影,使得在投影空间中,两视图特征的相关性最大
。
但 CCA 存在两个局限:
- 第一,只适用于两视图学习;
- 第二,只能进行线性运算,无法满足两视图特征的非线性关系运算。
基本概念
典型相关性分析(Canonical Correlation Analysis, CCA)是一种统计方法,用于量化和理解两组变量之间的线性关系
。
CCA旨在找到两组
变量内的线性组合,使得这些组合之间的相关性最大化
。这种方法特别适用于探索不同数据源或测量方式之间的潜在联系。
CCA的基本目标是在两组随机变量
和 之间寻找一对线性组合
,使得它们之间的相关性最大化
。这里, 和 可以是任意两个数据集
,例如,一个人的身高和体重数据集和这个人跑步和跳远的能力数据集。
CCA的主要公式和解释如下:
- 给定
两组随机变量向量
和 ,其中 和 - CCA试图找到向量 和 ,
使得新的变量
和 之间的相关性最大
。 - 这里的 和 分别表示向量 和 的
转置。
CCA的优化目标是:
其中,
- 是
典型相关系数
,表示 和 之间的相关性。
- 是 和 的
协方差。
- 和 分别是 和 的
方差。
为了简化这个目标,CCA通过求解广义特征值
问题来实现。具体来说,CCA试图最大化如下表达式:
其中,
- 是 的
协方差矩阵。
- 是 的
协方差矩阵。
- 和 分别是 和 之间的
交叉协方差矩阵。
然而,为了简化计算,通常CCA通过求解以下广义特征值问题来实现:
其中,
- 和 分别是与
最大特征值对应的特征向量
,这些向量给出最优的线性组合 和 。
CCA的一个关键假设是协方差矩阵 和 是非奇异的
。如果矩阵奇异,需要额外的技术来处理这个问题。
在多视图学习中,CCA被用来寻找多个视图之间的线性投影,使得投影后的数据在新的低维空间中保留了视图间的相关性。这种技术在跨模态检索、多视图特征融合等领域有广泛的应用。