典型相关分析(Canonical Correlation Analysis, CCA)

一 什么是典型相关分析

用来探索两个向量之间的关联关系的,这两个向量来自于同一个个体。比如说,我们需要判定健康和锻炼的关系,一方面观察身体指标如血压血脂作为健康的指标,另一方面观察跑步速度等作为锻炼的指标。然后观察二者的关联关系,分析健康与锻炼有何关系。

二 基本概念

1 典型变量(Canonical Variates)

首先,两个变量集合X和Y:
在这里插入图片描述
接着,定义两个线性关系的集合U和V,其中U是X的线性组合,V是Y的线性组合:
在这里插入图片描述
其中,U为p行p列(X为p列,对每一维都线性组合),V为p行q列(Y为q列,对每一维都线性组合),至于都是p行,是为了形成典型变量对

典型变量对(canonical variate pair):
在这里插入图片描述
显然,典型变量对共有p对(p ≤ q),比如,(U2, V2) = (a21X1 + a22X2 + ··· + a2pXp, b21Y1 + b22Y2 + ··· + b2qYq)

2 补充概念

(1)协方差:

期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:

在这里插入图片描述
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值;如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY] = E[X]E[Y],但是注意反过来并不一定成立,协方差为0时并不一定相互独立,但称协方差为0的两个随机变量不相关。

(2)相关系数:
在这里插入图片描述
若ρXY=0,则称X与Y不线性相关。

三 典型相关分析

典型相关是一种特定的相关,它指的是 i th 典型变量对中Ui和Vi的相关性
在这里插入图片描述
典型相关分析的目的就是将ρi*最大化,需要找到一种关于X和Y的线性组合,使得上述的关联系数最大化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值