梯度下降核典型相关分析(Gradient Descent Kernel Canonical Correlation Analysis, GDKCCA)是一种结合了核方法梯度下降优化算法的典型相关分析(CCA)的变体。

CCA是一种统计方法,用于发现两个随机变量集合之间的线性相关性

核典型相关分析(Kernel CCA, KCCA)扩展了CCA的能力,使其能够处理非线性关系,而GDKCCA进一步利用梯度下降来优化KCCA中的参数以找到数据集之间最大化相关性的投影方向。

核典型相关分析(KCCA)

在KCCA中,我们考虑两个数据集 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_相关分析基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_学习方法_02 ,其中 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_梯度下降_03 是样本数量, 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_学习方法_04基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_学习方法_05 分别是每个数据集的特征维度

KCCA的目标是找到两个投影方向 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_相关分析_06基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_相关分析_07 ,使得投影后的数据 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_学习方法_08基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_数据集_09 之间的相关性最大化,其中 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_相关分析_10 是从原始空间到高维特征空间的映射函数。

GDKCCA的公式

在GDKCCA中,我们通常最大化以下目标函数:

基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_数据集_11

这里,

  • 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_相关分析_12 是数据集 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_数据集_13自身核矩阵;
  • 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_相关分析_14 是数据集 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_数据集_15自身核矩阵;
  • 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_学习方法_16基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_数据集_13基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_数据集_15 之间的交叉核矩阵。
梯度下降优化

由于直接优化上述公式可能很复杂,GDKCCA通常采用梯度下降法来逐步逼近最优解

梯度下降的核心思想是沿着目标函数梯度的反方向移动,直到达到一个局部或全局的最小值(在这里是最大值,因为我们正在最大化相关性)。更新规则可以写作:

基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_相关分析_19

基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_数据集_20

这里,

  • 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_数据集_21 是学习率,控制每次更新的步长;
  • 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_相关分析_22基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_数据集_23 分别表示关于 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_学习方法_24基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_梯度下降_25梯度
梯度计算

计算上述梯度可能涉及到复杂的矩阵运算和微分,通常需要使用链式法则以及矩阵微分的规则。在实践中,这通常通过数值方法或自动微分库来实现,后者在现代机器学习框架中广泛可用。

总结

GDKCCA结合了核方法的强大能力(处理非线性关系)和梯度下降的优化效率,为发现两个数据集之间的深层相关性提供了一个灵活的框架。

通过迭代地调整投影向量 基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_相关分析_06基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——梯度下降核典型相关分析(GDKCCA)_相关分析_07 ,GDKCCA能够逼近那些最大化数据集间相关性的方向,即使这种相关性是非线性的。