典型相关分析
一.应用
研究两组变量(两个变量中有多个指标)之间的相关关系的一种多元统计方法,两种变量的内在联系
二.思想
- 首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数;
- 然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对;
- 如此继续下去,直到两组变量之间的相关性被提取完毕为止。
被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度
三.过程
假设两组变量分别为
分别在两组变量中选取若干有代表性的综合变量
U
U
Ui,
V
V
Vi,
注意:
- 综合变量的数组是不确定的,如果第一组就能代表原样本数据大部分的信息,那么第一组就够了
- 假设第一组反映的信息不够,就需要找第二组
- 为了让第二组信息更有效,需要保证两组的信息不相关
不相关: c o v ( U cov(U cov(Ui, U U Ui ) = c o v ( V )=cov(V )=cov(V1, V V V2 ) = 0 )=0 )=0- 第一组需要满足的条件:在 v a r ( U 1 ) = v a r ( V 1 ) = 1 var(U1)=var(V1)=1 var(U1)=var(V1)=1的条件下,找到a(1)和b(1)两个系数,使得p(u1,v1)最大
四.关键步骤
(1)数据的分布有假设:两组数据服从联合正态分布。(直接在论文中说:我假设两组数据服从正态分布)
(2)首先要对两组变量的相关性进行检验(构造似然比统计量 )。 p值小于0.05(0.1)表示在95%(90%)的置信水平下拒绝原假设,即认为两组变量有关。(这一步不是必须的,只需要在第三步证明出第一个典型相关系数是可取的就好)
(3)确定典型相关变量的个数(直接看典型相关系数对应的P值即可)
(4)利用标准化后的典型相关变量分析问题
(5)进行典型载荷分析
(6)计算前 r个典型变量对样本总方差的贡献
五.spss操作
第一步:导入数据
第二步:检验数据的类型
全部设置为标度
第三步:点击菜单功能
第四步:将数据移动到对应的集合
第五步:导出分析结果
(这里需要自己电脑的用户名不是中文,如果是不要紧,只需要重新注册一个新的用户,用英文名,然后如图操作
用新建的用户名运行就好啦
第六步:改名
每一个集合都要改
推荐使用标准化的数据
六.结果分析
第一步:数据的分布假设:服从正态分布
假设x=【x(1),x(2)】服从正态分布Nq+p( ,),从该总体中抽象样本容量为n的样本得到的样本容量为n,得到下列数据矩阵
(放个矩阵)
第二步:首先要对两组变量的相关性进行检验(构造似然比统计量 )
(这一步可以没有,第三步证明出第一个可以用就不需要这一步啦)
p值小于0.05(0.1)表示在95%(90%)的置信水平下拒绝原假设,即认为两组变量有关
第三步:确定典型相关变量的个数(直接看典型相关系数对应的P值即可)
置信水平:90%,95%,99%
显著性水平:0.1,0.05,0.01
0.064介于0.1和0.05之间,这个就有点尴尬,我们不希望证明出第一个相关系数不显著,则置信水平取90%,得出:在90%的置信水平下,生理指标和训练指标之间存在相关性,且第一队典型变量相关性显著。继续看第二个,第二个无论是什么置信区间都大,所以不可取,第三个就不用看了
(总而言之就是,不能让p值大,必须选择让p值小的置信区间)
所以有用的是第一个,我们可以用红色字体标记一下。
第四步:利用标准化后的典型相关变量分析问题
- 在该分析中,我们需要写出标准化的典型变量,其个数要根据上一个分析结果所得到的典型相关系数的个数来确定。
- 在上一个分析结果中我们知道,我们知道我们只需要第一对典型变量的相关系数,因此我们可以将第二、三对的典型变量的相关系数删除。
也可以不删,说明清楚就好,不过美赛侧重于图形,最好删除
由此,可得到的标准化的第一对典型变量:
其中, Zi(1)和Zj(2)分别为原始变量Xi和Yj标准化后的结果。 - 典型变量每个分量前面的系数代表着重要程度,可结合典型相关系数进行分析。
第五步:进行典型载荷分析
- 分析典型载荷的目的:进行典型载荷分析有助于更好解释分析已提取的p对典型变量。所谓的典型载荷分析是指原始变量与典型变量之间相关性分析。
- 分析结果:
以上结果说明生理指标的第一典型变量与体重的相关系数为-0.621,与腰围的相关系数为-0.925,与脉搏的相关系数为0.333. 从另一方面说明生理指标的第一对典型变量与体重、腰围负相关,而与脉搏正相关。其中与腰围的相关性最强。生理指标的第一对典型变量主要反映了体型的胖瘦。 - 还有个训练指标需要分析,分析方法同上
第六步:分析已解释的方差比例
-
分析目的
在进行样本典型相关分析时,我们也想了解每组变量提取出的典型变量所能解释的该组样本总方差的比例,从而定量测度典型变量所包含的原始信息量的大小。 -
数据说明(从左到右):
1.生理指标被自身的典型变量解释的方差比例;
2. 生理指标被训练指标的典型变量解释的方差比例;
3. 训练指标被自身的典型变量解释的方差比例;
4. 训练指标被生理指标的典型变量解释的方差比例。
- 分析结果
-
生理指标样本方差由自身3个典型变量解释的方差比例分别为:
- 第一典型变量解释的方差比例:0.451;
- 第二典型变量解释的方差比例:0.246,
- 第三典型变量解释的方差比例:0.302; -
训练指标样本方差由自身3个典型变量解释的方差比例分别为:
- 第一典型变量解释的方差比例:0.408;
- 第二典型变量解释的方差比例:0.434;
- 第三典型变量解释的方差比例:0.157;
-
七.资料
链接:https://pan.baidu.com/s/1eta9jIgn9Zyzk3MvT-6TGQ
提取码:e0xz
复制这段内容后打开百度网盘手机App,操作更方便哦