典型关联分析(CCA)原理总结

最新推荐文章于 2024-07-07 14:51:01 发布

皇德华叫兽

最新推荐文章于 2024-07-07 14:51:01 发布

阅读量5.5k

点赞数 5

分类专栏：综合文章标签： cca算法多视角学习机器学习数据融合

综合专栏收录该内容

4 篇文章 0 订阅

订阅专栏

　　典型关联分析(Canonical Correlation Analysis，以下简称CCA)是最常用的挖掘数据关联关系的算法之一。比如我们拿到两组数据，第一组是人身高和体重的数据，第二组是对应的跑步能力和跳远能力的数据。那么我们能不能说这两组数据是相关的呢？CCA可以帮助我们分析这个问题。

1. CCA概述

　　　　在数理统计里面，我们都知道相关系数这个概念。假设有两组一维的数据集X和Y，则相关系数ρρ的定义为:

　　　　其中cov(X,Y)cov(X,Y)是X和Y的协方差，而D(X),D(Y)D(X),D(Y)分别是X和Y的方差。相关系数ρρ的取值为[-1,1],　ρρ的绝对值越接近于1，则X和Y的线性相关性越高。越接近于0，则X和Y的线性相关性越低。

　　　　虽然相关系数可以很好的帮我们分析一维数据的相关性，但是对于高维数据就不能直接使用了。拿上面我们提到的，如果X是包括人身高和体重两个维度的数据，而Y是包括跑步能力和跳远能力两个维度的数据，就不能直接使用相关系数的方法。那我们能不能变通一下呢？CCA给了我们变通的方法。

　　　　CCA使用的方法是将多维的X和Y都用线性变换为1维的X'和Y'，然后再使用相关系数来看X'和Y'的相关性。将数据从多维变到1位，也可以理解为CCA是在进行降维，将高维数据降到1维，然后再用相关系数进行相关性的分析。下面我们看看CCA的算法思想。

2. CCA的算法思想

　　　　上面我们提到CCA是将高维的两组数据分别降维到1维，然后用相关系数分析相关性。但是有一个问题是，降维的标准是如何选择的呢？回想下主成分分析PCA，降维的原则是投影方差最大；再回想下线性判别分析LDA，降维的原则是同类的投影方差小，异类间的投影方差大。对于我们的CCA，它选择的投影标准是降维到1维后，两组数据的相关系数最大。

　　　　现在我们具体来讨论下CCA的算法思想。假设我们的数据集是X和Y，X为n1×mn1×m的样本矩阵。Y为n2×mn2×m的样本矩阵.其中m为样本个数，而n1,n2n1,n2分别为X和Y的特征维度。

　　　　对于X矩阵，我们将其投影到1维，或者说进行线性表示，对应的投影向量或者说线性系数向量为aa, 对于Y矩阵，我们将其投影到1维，或者说进行线性表示，对应的投影向量或者说线性系数向量为bb, 这样X ,Y投影后得到的一维向量分别为X',Y'。我们有