典型相关分析的介绍
- 用处:研究两组变量(每组变量中都可能有多个指标)之间相关关系的一种多元统计方法(揭示两组变量之间的内在联系)。
典型相关分析的步骤
- ① 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数;
- ② 选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对;
- ③ 如此往复,直至提前完毕两组变量之间的相关性
- 判断是否提取完毕 :可采取假设检验,直到相关系数不显著为止
- 概念介绍
- 典型变量:被选出的线性组合配对
- 典型相关系数:典型变量的相关系数。⇒ 度量两组变量之间联系的强度。
例子演示:典型相关分析关键步骤
-
(1)数据的分布有假设:两组数据服从联合正态分布。
- 可直接在论文中说明,两组数据符合(联合)正态分布
- 可直接在论文中说明,两组数据符合(联合)正态分布
-
(2)首先要对两组变量的相关性进行检验(构造似然比统计量 )。
- p值小于0.05(0.1)表示在95%(90%)的置信水平下拒绝原假设,即认为两组变量有关。
- 这个检验并非必须,因为等会需要对典型相关系数进行检验(若检验出第一个典型相关系数是显著的,即可得以上结论)
-
(3)确定典型相关变量的个数(直接看典型相关系数对应的P值即可
-
(4)利用标准化后的典型相关变量分析问题
-
(5)进行典型载荷分析
- 典型载荷分析反映了数据的相关性(反映综合指标和每个指标的相关性)
- 典型载荷分析反映了数据的相关性(反映综合指标和每个指标的相关性)
-
(6)计算前 r个典型变量对样本总方差的贡献
-
SPSS具体操作如下
具体实例
题目分析
- 探究观众和业内人士对于一些电视节目的观点有什么样的关系呢?
- 第一组变量(观众评分):低学历(led)、高学历(hed)和网络(net)调查;
- 第二组变量(业内人士分评分):演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)
- 思路:直接对变量两两分析,很难得到关于这两组变量(观众和业内人士)之间关系的一个清楚的印象。⇒ 把多个变量与多个变量之间的相关化为两个具有代表性的变量之间的相关。
- 代表的选择: 能较为综合、全面的衡量所在组的内在规律。⇒ 一组变量最简单的综合形式就是该组变量的线性组合。
SPSS操作步骤
-
注意:Spss至少需要24版本(低版本不能直接进行典型相关分析的操作,需要编程)
-
第一步:从excel导入数据到spss
-
第二步:检验数据的类型(此处全设置为“标度”)
- 标度:数字型标量(如身高、体重等)
- 有序:有序的分类变量(如甲乙丙丁、优良差等)
- 名义:无序的分类指标(如男女等)
-
第三步:点击菜单功能,选出典型相关性。
-
第四步:将数据移动到对应的集合。
- 注意要运行得先安装Python
- 注意要运行得先安装Python
-
第五步:导出分析结果
-
第六步:对结果进行分析
- ①该步说明(对该步骤的解释,不需写入论文):
- 若要将图放入论文中,需要对以下五个标头进行修改
- 通过p值对比可知,仅有第一行数据有价值(可用)⇒ 得到了典型相关系数
- 得到典型相关系数后,找典型相关变量
- 非标准化的数据会受到量纲的影响,故要对数据进行标准化后才可使用
- 非标准化的数据会受到量纲的影响,故要对数据进行标准化后才可使用
- 若要将图放入论文中,需要对以下五个标头进行修改
- ②具体共a~c三个环节(需要写入论文的部分)
- ①该步说明(对该步骤的解释,不需写入论文):
典型载荷分析
典型载荷
-
定义:典型载荷分析是指原始变量与典型变量之间相关性的分析。
- 在以上第六步中,得到标准化后的典型相关变量,可以通过标准化后的数据绝对值大小判断其和典型变量的相关性大小。但这种方式不大严格,严格的方式是通过计算相关性,可通过典型载荷分析实现。
-
典型载荷分析例子:
交叉载荷
- 交叉载荷用的少,一般只采用典型载荷对集合内部进行分析。
典型冗余分析(很少用)
- 典型冗余分析:计算三个典型变量各自的方差比例,用于看三者的解释例强不强。
课后习题
- 我们要探究观众和业内人士对于一些电视节目的观点有什么样的关系呢?利用典型相关分析完成这道题,写一篇小论文。
- 观众评分来自低学历(led)、高学历(hed)和网络(net)调查三种,它们形成第一组变量;
- 而业内人士分评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种,形成第二组变量。
- 阅读“2012年数学建模A题一等奖论文葡萄酒的评价”这篇文章
- 其他视频讲解:SPSS典型相关性分析