典型相关分析如何分析两组变量的关系

前言

我们在分析两组变量之间的相关性时,比如 X=[X1,X2,...,Xm] Y=[Y1,Y2,...,Yn] ,最原始的方法就是直接计算X和Y的协方差矩阵,矩阵有m*n个值。有了协方差矩阵就得到了两两变量之间的相关性,比如 cij 就是变量 Xi Yj 的相关性。

这种分析方法只考虑了 cij 变量 Xi Yj 变量单个维度之间的相关性,没有考虑X和Y内部之间的相关性。另外协方差矩阵的形式也比较繁琐。

典型相关分析

采用类似主成分分析的思想,分别找出两组变量各自的线性组合,然后讨论线性组合之间的相关关心。

分别在两组变量中找出第一对线性组合,使他们具有最大相关性;接着再分别在两组变量中找出第二对线性组合,使他们具有第二大的相关性,并且它们分别于本组内的第一线性组合不相关。以此类推找出其他线性组合,如下面提取两对线性组合,其中 u1u2 互相独立, v1v2 互相独立, u1v1 相关。

u1=a11x1+a12x2+...+a1mxmv1=b11y1+b12y2+...+b1nyn

u2=a21x1+a22x2+...+a2mxmv2=b21y1+b22y2+...+b2nyn

假设提取了r次,则最后提取了r组变量,

U=(u1,...,ur)TV=(v1,...,vr)T

则实现通过线性组合来表示原变量,并且用他们之间的相关性来表示原变量的相关性。

本质是什么

典型相关分析的本质是从两组变量中选取若干个有代表性的变量线性组合,用这些线性组合的相关性来表示原来两组变量的相关性。

求解线性组合

以第一组线性组合为例,这里要求解的就是包含的系数。

u1=a11x1+a12x2+...+a1mxmv1=b11y1+b12y2+...+b1nyn

矩阵形式为,

u1=aT1Xv1=bT1Y

只考虑方差为1时的线性函数,这时其实就存在一个约束条件, D(u1)=D(v1)=1 ,我们求常向量 aT1 bT1 ,使得相关系数 ρ(u1,v1) 达到最大。

方差分别为,

D(u1)=D(aT1X)=aT1Cov(X,X)a1D(v1)=D(bT1Y)=bT1Cov(Y,Y)b1

u1v1 的协方差为,

Cov(u1,v1)=aT1Cov(X,Y)b1

另外我们还有,

Cov(X,X)=11Cov(Y,Y)=22Cov(X,Y)=12

两者的相关系数为,

Corr(u1,v1)=Cov(u1,v1)D(u1)D(v1)=aT112b1aT111a1bT122b1

我们要做的是寻找 a1b1 使相关系数最大,同时要考虑前面说到的约束条件 D(u1)=D(v1)=1 ,它能防止结果重复出现,则相关系数变为,

Corr(u1,v1)=aT112b1

求条件极值一般可以引入拉格朗日乘数来求极大值,求解出 aT1bT1

对于其他组的线性组合也同样根据上述过程得到解。

线性组合数量

根据线性组合相关性大小不断提取线性组合,最大的为第一组,次大的为第二组,以此类推直到 r

怎么分析

比如第一组线性组合中,可以计算两组变量与u1和v1的相关系数,如果某若干个变量与u1相关系数较大,则u1代表该若干变量的总指标,可以自己根据变量取个额外的名称。而同样如果v1和其他若干变量的相关系数较大的话则v1可代表该若干变量。

接着如果u1和v1的相关系数较大的话则说明u1代表的若干变量与v1代表的若干变量是关系密切的。对于其他线性组合也一样,先找出u2和v2相关的若干变量,然后再看u2与v2之间的相关系数,判断其是否相关。

=============广告时间===============

公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”等,可能有一款适合你的胃口。

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了,有需要的朋友可以购买。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

=========================

欢迎关注:

这里写图片描述

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

超人汪小建(seaboat)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值