SPSS26统计分析笔记——6 相关分析

Liantharion

已于 2024-09-22 14:57:43 修改

阅读量3.8k

点赞数 25

分类专栏： SPSS 文章标签：笔记概率论数据分析大数据数学建模学习需求分析

于 2024-09-22 14:19:36 首次发布

本文链接：https://blog.csdn.net/m0_64111363/article/details/142369059

版权

SPSS 专栏收录该内容

10 篇文章

订阅专栏

1 简单线性相关

        散点图能够直观展示两个变量之间的线性关系，但由于其无法量化数据，准确判断变量间的关系可能会有困难，且难以与其他关系进行定量比较。因此，统计学中通常使用相关系数来衡量两个变量的线性相关程度。相关系数通常用字母r表示，范围从-1 到+1，负值表示负相关，正值表示正相关（通常省略正号）。相关系数的绝对值越接近1，表示线性相关性越强；越接近0，表示线性相关性越弱。
        相关系数的强弱划分为：
        |r| < 0.3：低度相关；
        0.3 < |r| < 0.5：中低度相关；
        0.5 < |r| < 0.8：中度相关；
        |r| > 0.8：高度相关；
        r = 0：无线性相关。
        常用的相关系数包括皮尔逊相关系数、斯皮尔曼等级相关系数和肯德尔相关系数。
在这里插入图片描述

1.1 皮尔逊相关系数

        皮尔逊积差相关系数的计算通常需要满足以下条件：
        ①正态分布：两组数据应接近正态分布；
        ②成对数据：数据必须成对出现，即每个样本的两个变量数据应对应成对；
        ③样本数量：成对样本的数量一般应大于30，以确保统计结果的可靠性；
        ④续性数据：两列数据必须是连续性变量。
        皮尔逊相关系数的计算公式为：
$r{\text{ = }}\frac{{\sum\limits_{{\text{i}} = 1}^n {({x_i} - \overline x )} ({y_i} - \overline y )}}{{\sqrt {\sum\limits_{{\text{i}} = 1}^n {{{({x_i} - \overline x )}^2}\sum\limits_{i = 1}^n {{{({y_i} - \overline y )}^2}} } } }}$
         ${x_i}$ 和 ${y_i}$ 是指两列样本数据的各个观测值；
         $\bar x$ 和 $\bar y$ 是指两列样本数据的算术平均数；
         $n$ 是指样本容量，即两列数据共组成了多少对数据。
        通常情况下，采用t分布检验皮尔逊相关系数的显著性，检验统计量为：
$\frac{{r\sqrt {n - 2} }}{{\sqrt {1 - {r^2}} }}$

1.2 斯皮尔曼等级相关系数

        斯皮尔曼等级相关系数（Spearman’s Rank Correlation Coefficient）是一种非参数统计方法，用于衡量两个变量之间的单调关系。它基于变量的秩次（排名）而非原始数值，因此适用于以下情况：
        ①非正态分布的数据：当数据不符合正态分布时，斯皮尔曼相关系数仍能有效测量相关性；
        ②存在异常值：由于采用秩次排名，斯皮尔曼相关系数对异常值的影响较小；
        ③线性与非线性单调关系：即便两个变量之间存在非线性的单调关系，斯皮尔曼系数也能捕捉其相关性。
        斯皮尔曼等级相关系数的计算公式为： ${r_R} = 1 - \frac{{6\sum {d_i^2} }}{{n({n^2} - 1)}}$
         ${r_R}$ 等级相关性系数；
         $n$ 样本容量；
         $d = {y_i} - {x_i}$ 变量 $y$ 的第 $i$ 个观测值 ${y_i}$ 和变量 $x$ 的第 $i$ 个观测值 ${x_i}$ 的秩的差值。
        通常情况下，采用t分布检验斯皮尔曼等级相关系数的显著性，检验统计量为： $\frac{{{r_R}\sqrt {n - 2} }}{{\sqrt {1 - {r_R}^2} }}$

1.3 肯基德的tau-b系数

        肯德尔tau-b系数（Kendall’s tau-b）是一种非参数相关系数，专门用于衡量两个变量之间的秩次相关性。与斯皮尔曼等级相关系数类似，肯德尔tau-b适合处理秩次数据，并且不依赖数据的正态分布。其主要特点包括：
        ①秩次数据：基于秩次的比较，而不是数值大小，因此适合处理分类或有序数据；
        ②抗异常值：由于是基于秩次进行比较，肯德尔tau-b对异常值的影响较小；
        ③处理平局：相比斯皮尔曼相关系数，肯德尔tau-b能更好地处理两个变量存在较多平局（相同排名）的情况。
        肯德尔tau-b系数的计算公式为： $\tau = \frac{{4P}}{{n(n - 1)}} - 1$
         $n$ 项目的个数；
         $P$ 一个变量各个秩的贡献值之和。
        小样本 $\tau$ 服从肯德尔分布，大样本采用 $Z$ 检验，检验统计量为： $\tau \sqrt {\frac{{9n(n - 1)}}{{2(2n + 5)}}}$

2 偏相关分析

        偏相关分析用于在控制一个或多个第三方变量（控制变量）后，分析两个目标变量之间的相关程度。通过排除控制变量的影响，偏相关分析能够更准确地揭示两个目标变量之间的真正关联。具体而言，控制变量是那些可能对两个目标变量都产生影响的因素。在进行偏相关分析时，这些控制变量的影响被剔除，从而使分析结果只反映目标变量之间的净相关性。控制变量可以是单一变量，也可以是多个变量。
在这里插入图片描述
        现以一个控制变量为列，其偏相关系数的计算公式为：
${r_{y{x_1},{x_2}}} = \frac{{{r_{y1}} - {r_{y2}}{r_{12}}}}{{\sqrt {(1 - r_{y2}^2)(1 - r_{12}^2)} }}$
         ${r_{y{x_1},{x_2}}}$ 控制因素 ${x_2}$ 后 $y$ 和 ${x_1}$ 的偏相关系数；
         ${r_{y1}},{r_{y2}},{r_{12}}$ 分别代表 $y$ 和 ${x_1}$ 的相关系数、 $y$ 和 ${x_2}$ 的相关系数、 ${x_1}$ 和 ${x_2}$ 的相关系数；
        通常情况下，采用t分布检验偏相关系数的显著性，检验统计量为：
$r\sqrt {\frac{{n - q - 2}}{{1 - {r^2}}}}$
         $r$ 偏相关系数；
         $n$ 样本量；
         $q$ 阶数（控制变量个数）；
         $t$ 服从自由度 $df = n - q - 2$ 的 $t$ 分布。

3 距离相关

        距离分析可以分为个案间和变量间的分析，分别研究个案或变量的相似性与不相似性。根据数据类型的不同，距离分析的具体方法也有所不同，主要包括相似性分析和不相似性分析两种。
        个案相似与不相似分析：用于评估不同个体（个案）之间的相似程度或差异程度。
        变量相似与不相似分析：用于分析不同变量之间的关联性，判断变量间的相似性或差异性。
在这里插入图片描述

3.1 不相似分析

        不相似性分析通过计算距离来衡量个体或变量之间的差异，距离越大表示差异越大，或不相似性越强。根据数据类型的不同，计算距离的方法也有所不同：
        （1）定比和定距数据（即数值型数据）：
        ①欧氏距离（Euclidean Distance）：两点之间的直线距离，最常见的距离度量方式；
        ②平方欧氏距离：欧氏距离的平方，强调了较大差异的权重；
        ③契比雪夫距离（Chebyshev Distance）：只考虑各维度中最大的差异，适合当一个维度差异主导整体差异时使用；
        ④绝对值距离（Manhattan Distance）：各维度的绝对差值之和，适合不考虑方向的情境；
        ⑤明可夫斯基距离（Minkowski Distance）：欧氏距离和绝对值距离的广义形式，通过参数p调整距离的计算方式。
        （2）定序数据（即具有顺序但无明确间距的数据）：
        ①卡方不相似测量：衡量分类变量之间的差异，常用于频数数据；
        ②Phi不相似测量：基于二元数据或列联表，用于评估两个定序变量之间的关联程度。
        （3）二分数据（仅有两个取值，如0和1）：可以使用欧氏距离和平方欧氏距离等方法，视数据分布而定。

3.2 相似分析

        分析变量和个案间的相似性，同样需根据不同数据类型选择合适的计算方法：
        （1）定距型变量（连续数据）：
        ①皮尔逊相关系数：用于衡量两个变量之间的线性关系，相似性越高，相关系数越接近1；
        ②夹角余弦距离（Cosine Similarity）：通过计算两个向量之间夹角的余弦值来衡量相似性，余弦值接近1表示高度相似，接近0则表示完全不相似；
        （2）二分变量（仅有0和1的取值）：
        ①简单匹配系数（Simple Matching Coefficient, SMC）：基于两个个体在所有属性上的匹配情况，0和1都被认为是匹配的，计算两个样本相同属性的比例；
        ②杰卡德相似性指数（Jaccard Similarity Index）：专门用于处理稀疏数据（例如，1表示特征存在，0表示不存在），只计算两个样本共有特征（即1）的比例，而忽略双方都为0的情况；
        ③哈曼相似性指数（Hamming Similarity Index）：基于哈曼距离，计算两个样本在不同位置上异同的程度，主要用于二进制字符串的比较。

4 信度

信度（Reliability）是指一种测量工具或方法的一致性和稳定性。它反映了测量结果的可靠性，即在相同条件下重复使用该工具时，结果是否一致。高信度意味着测量工具能够提供一致的结果，避免随机误差的影响。

4.1 重测信度（Test-Retest Reliability）

指在不同时间点使用相同的测量工具对同一组被试进行测量，观察两次测量结果之间的相关性。高重测信度表示测量工具在时间上具有稳定性。

4.2 复本信度

复本信度（Alternate-Forms Reliability），又称副本信度，是指使用两个等值的测量工具（复本）对同一批被试进行测量，评估其结果一致性的程度。复本是指在信度、效度、难度、区分度、题型、题量等测量学指标上都等值的测验。

4.3 内部一致性信度（Internal Consistency Reliability）

        用于衡量一个测量工具内部各个项目之间的一致性。常用于多题项问卷或量表，考察每个题目是否都在测量相同的潜在概念。
        ①半分信度（Split-Half Reliability）
        ②同质性信度（Homogeneity Reliability / Internal Consistency Reliability）
         $Cronbach's\;\alpha$ 是内部一致性信度的广泛应用指标，通常用于多题项问卷或量表。它的计算公式为：
$\alpha = \frac{{k - 1}}{k}(1 - \frac{{\sum {S_i^2} }}{{S_x^2}})$