Abstract
典型相关分析(Canonical Correlation analysis)是研究两组变量(每组变量中都可能有多个指标)之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系
提示:这里将涉及到多元统计的知识,在学过了主成分分析模型后再过来看比较合适
一 引入
1.1 举个栗子
1.1.1 发现问题
通过上表我们来探究观众和业内人士对一些电视节目的观点之间存在着什么关系,其中观众评分来自低学历(led)、高学历(hed)和网络(net)调查三种,他们形成第一组变量;而业内人士评分来自包括演员和导演在内的艺术家(art)、发行(com)与业内各部门主管(man)三种,形成第二组变量
我们直接对这些变量的相关进行两两分析,很难得到关于这两组变量(观众和业内人士)之间关系的一个清楚的印象
1.1.2 解决思路
因此,我们需要把多个变量与多个变量之间的相关化为两个具有代表性的变量之间的相关
1.1.3 选出代表
代表
:能较为综合、全面的衡量所在组的内在规律
一组变量最简单的综合形式就是该组变量的线性组合
二 典型相关分析
2.1 典型相关分析的定义
典型相关分析的基本思想和主成分分析十分相似
它按以下步骤进行分析:
- 首先在每组变量中找出这些变量的线性组合,使得两组的线性组合之间具有很大的相关系数
- 然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一堆
- 如此继续下去,直到两组变量之间的相关性被提取完毕为止
- 被选出的线性组合配对称为典型变量,它们的相关系数被称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度
2.2 典型相关分析的思路
假设两组变量分别为: X 1 = ( X 1 1 、 X 2 1 . . . X p 1 ) , X 2 = ( X 1 2 、 X 2 2 . . . X q 2 ) X^{1}=(X_{1}^{1}、X_{2}^{1}...X_{p}^{1}),X^{2}=(X_{1}^{2}、X_{2}^{2}...X_{q}^{2}) X1=(X11、X21...Xp1),X2=(X12、X22...Xq2)
分别在两组变量中选取若干有代表性的综合变量 U i 、 V i U_{i}、V_{i} Ui、Vi,
使得每一个综合变量是原变量的线性组合,即
U i = a 1 ( i ) X 1 ( 1 ) + a 2 ( i ) X 2 ( 1 ) + . . . + a p ( i ) X p ( 1 ) ≡ a ( i ′ ) X ( 1 ) V i = b 1 ( i ) X 1 ( 2 ) + b 2 ( i ) X 2 ( 2 ) + . . . + b q ( i ) X q ( 2 ) ≡ b ( i ′ ) X ( 2 ) U_{i} = a_{1}^{(i)}X_{1}^{(1)}+a_{2}^{(i)}X_{2}^{(1)}+...+a_{p}^{(i)}X_{p}^{(1)} \equiv \boldsymbol {a^{(i')}X^{(1)}} \\ V_{i} = b_{1}^{(i)}X_{1}^{(2)}+b_{2}^{(i)}X_{2}^{(2)}+...+b_{q}^{(i)}X_{q}^{(2)} \equiv \boldsymbol {b^{(i')}X^{(2)}} \\ Ui=a1(i)X1(1)+a2(i)X2(1)