一 什么是典型相关分析
用来探索两个向量之间的关联关系的,这两个向量来自于同一个个体。比如说,我们需要判定健康和锻炼的关系,一方面观察身体指标如血压血脂作为健康的指标,另一方面观察跑步速度等作为锻炼的指标。然后观察二者的关联关系,分析健康与锻炼有何关系。
二 基本概念
1 典型变量(Canonical Variates)
首先,两个变量集合X和Y:
接着,定义两个线性关系的集合U和V,其中U是X的线性组合,V是Y的线性组合:
其中,U为p行p列(X为p列,对每一维都线性组合),V为p行q列(Y为q列,对每一维都线性组合),至于都是p行,是为了形成典型变量对。
典型变量对(canonical variate pair):
显然,典型变量对共有p对(p ≤ q),比如,(U2, V2) = (a21X1 + a22X2 + ··· + a2pXp, b21Y1 + b22Y2 + ··· + b2qYq)
2 补充概念
(1)协方差:
期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值;如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY] = E[X]E[Y],但是注意反过来并不一定成立,协方差为0时并不一定相互独立,但称协方差为0的两个随机变量不相关。
(2)相关系数:
若ρXY=0,则称X与Y不线性相关。
三 典型相关分析
典型相关是一种特定的相关,它指的是 i th 典型变量对中Ui和Vi的相关性
典型相关分析的目的就是将ρi*最大化,需要找到一种关于X和Y的线性组合,使得上述的关联系数最大化。