典型关联分析(Canonical Correlation Analysis, CCA)
原文链接:CCA1
典型相关分析(Canonical Correlation Analysis能够揭示两组变量之间的内在关系。
引入
分析两个随机变量之间的关系的重要工具就是相关系数
ρ
\rho
ρ,而对于一个随机变量与多个随机变量的线性相关关系要用到复相关系数。然而,这些方法均无法用于研究两组变量之间的相关关系,于是便产生了CCA。
基本思想(和PCA非常相似)
- 在每组变量中寻找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数;
- 选取和已经挑选出的这对线性组合不相关的另一对线性组合,并使其相关系数最大;
- 重复1和2,直到两组变量的相关性被提取完毕为止。
其中,被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。
推导
详细请见
原文链接:CCA2
小结
CCA算法广泛的应用于数据相关度的分析,同时还是偏最小二乘法的基础。但是由于它依赖于数据的线性表示,当我们的数据无法线性表示时,CCA就无法使用,此时我们可以利用核函数的思想,将数据映射到高维后,再利用CCA的思想降维到1维,求对应的相关系数和线性关系,这个算法一般称为KCCA。
此外,我们在算法里只找了相关度最大的奇异值或者特征值,作为数据的相关系数,实际上我们也可以像PCA一样找出第二大奇异值,第三大奇异值,。。。得到第二相关系数和第三相关系数。然后对数据做进一步的相关性分析。但是一般的应用来说,找出第一相关系数就可以了。