首先,要明确CCA方法是一种多元统计分析方法,在大多数情况下是用来反映两组(不是两个)变量之间的整体相关性。方法是将两组变量通过线性组合分别合成为 U ⃗ \vec U U和 V ⃗ \vec V V。(在我的研究领域,就是不同天得到数据的第一主成分的相关性)。
为什么要进行线性组合呢?又如何进行线性组合呢?这就是CCA需要做的事情。
首先,CCA的英文名是Canonical correlation analysis,翻译过来就是典型相关分析,而非典型就是经典相关分析,包括自相关、互相关等,其中都与cov协方差矩阵有关。
设有两组变量 X = [ x 1 , x 2 , . . . , x m ] , Y = [ y 1 , y 2 , . . . , y n ] X=[x_1,x_2,...,x_m],Y=[y_1,y_2,...,y_n] X=[x1,x2,...,xm],Y=[y1,y2,...,yn],在求得的协方差矩阵中就有m*n个值,所以相关分析麻烦。(请注意,相关系数是对两个变量之间线性关系的计算,如同 X = [ x 1 ] , Y = [ y 1 ] X=[x_1],Y=[y_1] X=[x1],Y=[y1],最后是1个值)
而典型相关分析则不是这样,它从总体上把握了两组变量之间的相关程度。
我们用两个综合变量
U
⃗
\vec U
U和
V
⃗
\vec V
V来分别表示两组变量。他们分别是
X
X
X和
Y
Y
Y的线性组合(当然有很多种组合方式,即很多组
U
⃗
\vec U
U、
V
⃗
\vec V
V):
U
⃗
=
w
1
∗
x
1
+
w
2
∗
x
2
.
.
.
+
w
m
∗
x
m
=
w
⃗
∗
X
⃗
\vec U=w_1*x_1+w_2*x_2...+w_m*x_m=\vec w*\vec X
U=w1∗x1+w2∗x2...+wm∗xm=w∗X
V
⃗
=
p
1
∗
x
1
+
p
2
∗
x
2
.
.
.
+
p
m
∗
x
m
=
p
⃗
∗
Y
⃗
\vec V=p_1*x_1+p_2*x_2...+p_m*x_m=\vec p*\vec Y
V=p1∗x1+p2∗x2...+pm∗xm=p∗Y
CCA的作用就是要寻找使
U
⃗
\vec U
U和
V
⃗
\vec V
V的相关系数最大的系数
w
⃗
和
p
⃗
\vec w和\vec p
w和p,即CCA的实质就是用典型变量(原变量的线性组合)来代表原变量,用它们之间的相关性来反映原变量的相关性。
更为详细的解释和实际应用参见: http://t.cn/AiuiFwdr