数学建模——典型相关分析及相关SPSS操作

一、引述

1.概念

  • 典型相关分析用于研究两组变量每组变量中都可能有多个指标)之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。
  • 在一元统计分析中,用相关系数来衡量两个随机变量之间的线性相关关系用复相关系数研究一个随机变量和多个随机变量的线性相关关系。然而,这些统计方法在研究两组变量之间的相关关系时却无能为力。比如要研究生理指标与训练指标的关系居民生活环境与健康状况的关系人口统计变量(户主年龄、家庭年收入、户主受教育程度)与消费变量(每年去餐馆就餐的频率、每年出外看电影的频率)之间是否具有相关关系 ?阅读能力变量(阅读速度、阅读才能)与数学运算能力变量(数学运算速度、数学运算才能)**是否相关?这些多变量间的相关性如何分析?

2.何为两组变量呢?

下图是测量的20名学生的生理指标与训练指标。第一组是生理指标变量,有体重、腰围和脉搏;第二组是训练指标变量,有引体向上次数、起坐次数和跳跃次数。要求测量生理指标与训练指标这两组变量之间的关系。
示例
在本题中,如果我们直接对这些变量(诸如体重、胸围等变量)的相关性进行两两分析,很难得到题干所要求的测量生理指标与训练指标这两组变量之间的关系。所以,我们引入一种新的分析方法:典型相关分析。

3. 本文主要内容

  • 本文主要目的在于介绍典型相关分析的基本思想和解题步骤以及讲解如何使用SPSS24.0解决该类数学建模问题。
  • 如果要进行论文写作,我们需要掌握典型相关分析的原理及方法。这一部分,我将在后面的专栏中结合相关获奖论文进行说明。

二、典型相关分析

1. 基本思路

  • 在上例中,我们可以采用这样的解决思路:由于两组变量中都含有多个变量指标,每组变量中定然会有代表性的变量。这样,找到代表性的变量,我们便可以把 多个变量与多个变量之间的相关变成两个具有代表性的变量之间的相关
  • 代表性变量:能较为综合、全面的衡量所在组的内在规律。
  • 一组变量最简单的综合形式就是该组变量的线性组合

2. 基本思想

典型相关分析由Hotelling提出,其基本思想和主成分分析非常相似

  • 首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数
  • 然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。
  • 如此继续下去,知道两组变量之间的相关性被提取完毕为止。
  • 被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间的强度。

3. 基本思路

  • 一般情况下,假设
    在这里插入图片描述
    是两个相互关联的随机变量,分别在两组变量中选取若干有代表性的综合变量Ui、Vi,使得每一个综合变量是原变量的线性组合,即
    在这里插入图片描述

  • 当然,综合变量的组数是不确定的,如果第一组就能代表原样本数据大部分的信息,那么一组就足够了。如果第一组反映的信息不够,我们就需要找第二组数据。

  • 为了让所找到的第二组数据的信息更加有效,我们需要保证第二组数据和第一组数据不相关,即
    在这里插入图片描述

  • 对于数学的部分,我就不再过多阐述(无力.jpg)。感兴趣的同学可以自行查找资料。上面一点便是我们所要达到的终极目的。

三、关键步骤(看不懂的话,可以先看四)

  1. 假设我们所研究的两组数据服从联合正态分布
  2. 对这两组变量的相关性进行检验(构造似然比统计量)
    • H0:两组变量的协差阵为0(两组变量无关);H1:两组变量的协差阵不为0(两组变量有关)
    • 用于检验的似然比统计量
      在这里插入图片描述
    • p值小于0.5(0.1)表示在95%(90%)的置信水平下拒绝原假设, 即认为两组变量有关。
  3. 确定典型相关变量的个数(直接看典型相关系数对应的p值即可)
  4. 利用标准化后的典型相关变量分析问题
    为了消除量纲和数量级别的影响,必须对数据先做标准化变换处理,然后再做典型相关分析。
  5. 进行典型载荷分析
  6. 计算前r个典型变量对样本总方差的贡献

四、使用SPSS进行典型相关分析

1.导入数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 检验数据类型

在这里插入图片描述
点击左下角的变量视图
在这里插入图片描述
在这里插入图片描述

3. 对数据进行典型相关分析

在这里插入图片描述
在这里插入图片描述
按照题干要求将变量进行分组(按住ctrl,可以进行多个选中)
在这里插入图片描述
之后便得到如下内容:
在这里插入图片描述

4.导出分析结果

在这里插入图片描述
在这里插入图片描述
于是我们便在桌面上得到了该文件。
在这里插入图片描述

6.修改原文件中表格的名称

  1. 下面是刚打开的原文件表格名称
    在这里插入图片描述
  2. 将文件中的表格进行重新命名,以免在后续的操作造成干扰。
    • 将所有的集合1修改成生理指标,集合2修改成训练指标。
    • 修改表格名称:典型相关性 >>> 典型相关系数
    • 修改表格内容:相关性 >>> 相关系数;显著性 >>> p值
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      注:以上图片,便是我们在建模中经常使用的表格。

五、对结果进行分析

1.分析典型相关系数表

在这里插入图片描述

  • 该表格的最后一列代表着检验统计量所对应的p值我们需要通过它确定典型相关系数的个数。
  • 我们知道置信水平有三个:90%、95%、99%,其对应的显著性水平分别为 0.1、0.05、0.01.
  • 观察第一行的p值,我们发现 0.05 < 0.064 < 0.1. 因此,我们知道在95%的置信水平下,生理指标与训练指标之间不存在相关性;而在90%的置信水平下,生理指标与训练指标之间存在相关性,且第一对典型变量相关性显著
  • 我们接着观察后面两个p值:0.949和0.775。说明第二对和第三对典型变量相关性不显著。
  • 由此我们可以确定典型相关系数的个数为1,即第一对典型变量的相关系数。

2. 分析标准化典型相关系数

  • 在该分析中,我们需要写出标准化的典型变量,其个数要根据上一个分析结果所得到的典型相关系数的个数来确定。

  • 在上一个分析结果中我们知道,我们知道我们只需要第一对典型变量的相关系数,因此我们可以将第二、三对的典型变量的相关系数删除。
    在这里插入图片描述
    由此,可得到的标准化的第一对典型变量:
    在这里插入图片描述
    其中, Zi(1)和Zj(2)分别为原始变量Xi和Yj标准化后的结果。

  • 典型变量每个分量前面的系数代表着重要程度,可结合典型相关系数进行分析。

  • 结论

    • 在生理指标中,由于X2(腰围)的绝对值最大,反映生理指标的典型变量主要由腰围决定;
    • 在训练指标中,由于Y2(起坐次数)的绝对值最大,说明训练指标的典型变量主要由起坐次数所决定。
    • 同时,由于两个典型变量中腰围和起坐次数的系数是异号的(腰围为负,起坐次数为正),反映腰围和起坐次数的负相关,即腰围越小则起坐次数越多。这和客观事实是相符的。

3. 分析典型载荷

说明:为了节省篇幅,在这里笔者只分析生理指标的典型载荷,读者可以模仿分析训练指标的典型载荷。

  1. 分析典型载荷的目的:进行典型载荷分析有助于更好解释分析已提取的p对典型变量所谓的典型载荷分析是指原始变量与典型变量之间相关性分析
    在这里插入图片描述
  2. 分析结果
    以上结果说明生理指标的第一典型变量与体重的相关系数为-0.621,与腰围的相关系数为-0.925,与脉搏的相关系数为0.333. 从另一方面说明生理指标的第一对典型变量与体重、腰围负相关,而与脉搏正相关。其中与腰围的相关性最强生理指标的第一对典型变量主要反映了体型的胖瘦

4. 分析已解释的方差比例

  1. 分析目的
    在进行样本典型相关分析时,我们也想了解每组变量提取出的典型变量所能解释的该组样本总方差的比例,从而定量测度典型变量所包含的原始信息量的大小
    在这里插入图片描述
  2. 数据说明(从左到右)
    1. 生理指标被自身的典型变量解释的方差比例;
    2. 生理指标被训练指标的典型变量解释的方差比例;
    3. 训练指标被自身的典型变量解释的方差比例;
    4. 训练指标被生理指标的典型变量解释的方差比例。
  3. 分析结果
  • 生理指标样本方差由自身3个典型变量解释的方差比例分别为:
    • 第一典型变量解释的方差比例:0.451;
    • 第二典型变量解释的方差比例:0.246,
    • 第三典型变量解释的方差比例:0.302;
  • 训练指标样本方差由自身3个典型变量解释的方差比例分别为:
    • 第一典型变量解释的方差比例:0.408;
    • 第二典型变量解释的方差比例:0.434;
    • 第三典型变量解释的方差比例:0.157;

六、资料链接

  1. 资料内容:health.xlsx
    链接:https://pan.baidu.com/s/1r3JujIEG3PCfc-K5WskAag
    提取码:3exf
相关推荐
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页