典型关联分析（CCA）算法原理

最新推荐文章于 2021-08-04 20:16:37 发布

flyingliufan

最新推荐文章于 2021-08-04 20:16:37 发布

阅读量2.7w

点赞数 7

分类专栏：数学文章标签：典型关联分析 CCA

本文链接：https://blog.csdn.net/flyingliufan/article/details/47042847

版权

数学专栏收录该内容

3 篇文章 0 订阅

订阅专栏

典型关联分析（CCA）算法原理

1、问题的提出

我们知道，两个随机变量x、y之间的线性关系可以通过对这两个变量的N组样本对进行线性回归求得。但是，如果要求两组随机变量x、y之间的线性关系，则可以用典型关联分析（Canonical correlation analysis）来求解。CCA是寻找两组变量对应的两个线性变换 $\textbf{w}_x,\textbf{w}_y$ (分别和x，y的维数相等)，使得通过线性变换后的两个组合变量（即 $\textbf{w}_x^T\textbf{x},\textbf{w}_y^T\textbf{y}$ ）之间的相关系数最大。

2、算法实现

假设两组随机变量有N个样本，把这N个样本都进行线性变换，得到以下两组数据：

$S_{x}\textbf{w}_x = (\textbf{w}_x^T\textbf{x}_1,...,\textbf{w}_x^T\textbf{x}_N)$
$S_{y}\textbf{w}_y = (\textbf{w}_y^T\textbf{y}_1,...,\textbf{w}_y^T\textbf{y}_N)$

而CCA算法要做的就是最大化这两组数据之间的相关性，可以表示为下式：

$\rho = \operatorname*{max}\limits_{\textbf{w}_x,\textbf{w}_y} corr(S_{x}\textbf{w}_x,S_{y}\textbf{w}_y) = \operatorname*{max}\limits_{\textbf{w}_x,\textbf{w}_y}\frac{\langle S_{x}\textbf{w}_x,S_{y}\textbf{w}_y \rangle}{\left || S_{x}\textbf{w}_x \right || \left || S_{y}\textbf{w}_y \right ||}$ ，（注意：已默认两组数据均值为零）

通过数学推导（详见《canonical correlation analysis： an overview with application to learning methods》），
可以得到如下两个公式：

$\textbf{w}_y = \frac{C_{yy}^{-1}C_{yx}\textbf{w}_x}{\lambda}$ , (2.1)

$C_{xy}C_{yy}^{-1}C_{yx}\textbf{w}_x = \lambda^2C_{xx}\textbf{w}_x$ ,(2.2)

因为协方差矩阵 $C_{xx}，C_{yy}$ 是对称正定的，所以可以进行完整的Choleskey分解如下：

$C_{xx} = R_{xx}\cdot R_{xx}'$

令 $\textbf{u}_x = R_{xx}'\cdot \textbf{w}_x$ ，代入2.2式可得：

$R_{xx}^{-1}C_{xy}C_{yy}^{-1}C_{yx}{R_{xx}^{-1}}'\textbf{u}_x = \lambda^2\textbf{u}_x$

这就是一个特征值求解问题 $A\textbf{x} = \lambda^2\textbf{x}$ 。求出的特征向量就是 $\textbf{w}_x$ ，代入2.1式可以求出 $\textbf{w}_y,而\rho=\lambda$ 。
得到以上结果后可算出 $S_{x}\textbf{w}_x，S_{y}\textbf{w}_y$ 这两组数据的具体值，并可画图观察线性关系。