13.8 相关分析总结-CSDN博客

本文链接：https://blog.csdn.net/Leroi64/article/details/148123907

13.1-13.7 相关分析全章逻辑框架与章节关系

一、章节内容与底层逻辑

13.1 相关分析概述
- 核心：定义变量间关联关系的类型（线性/非线性、正/负相关），提出“相关系数”概念。
- 底层逻辑：通过量化变量间协同变化的程度（如协方差），构建统一指标（如皮尔森系数）。
- 公式基础：
  $\text{协方差} = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})$
13.2 皮尔森相关系数
- 核心：衡量连续变量间线性关系的标准方法。
- 底层逻辑：标准化协方差，消除量纲影响：
  $\frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}}$
- 限制：需满足正态分布、线性假设，对异常值敏感。
13.3 计算与检验
- 核心：实现相关系数的计算与统计显著性验证（如T检验）。
- 底层逻辑：
  - 计算：通过协方差矩阵生成相关系数矩阵（如Python的numpy.corrcoef）。
  - 检验：T统计量验证相关性是否显著：
    $\sqrt{\frac{n-2}{1-r^2}}$
13.4 斯皮尔曼等级相关
- 核心：衡量非线性单调关系的非参数方法。
- 底层逻辑：将原始数据转换为等级排序，计算等级差的皮尔森系数：
  $\rho = 1 - \frac{6 \sum d_i^2}{n(n^2-1)}$
- 优势：适用于非正态数据、非线性但单调的趋势（如评委打分一致性）。
13.5 肯德尔系数
- 核心：衡量排序一致性，尤其适合小样本或同分值场景。
- 底层逻辑：通过**协和对（C）与不协和对（D）**的比例计算：
  $\tau = \frac{C-D}{\frac{1}{2}n(n-1)}$
- 对比斯皮尔曼：更稳健的同分修正（Tau-b），计算复杂度更低。
13.6 质量相关分析
- 核心：混合数据类型（分类变量+连续变量）的关联性度量。
- 方法：
  - 二列相关：人为二分连续变量（如考试成绩分为及格/不及格）。
  - 点二列相关：自然二分变量（如性别）与连续变量的关联。
- 公式（点二列）：
  $r_{pb} = \frac{\bar{X}_1 - \bar{X}_0}{S_X} \sqrt{pq}$
13.7 偏相关与复相关
- 偏相关：排除其他变量干扰后的“纯净”相关性（如教育水平与薪资的关系，控制工作经验）。
  $\rho_{XY·Z} = \frac{\rho_{XY} - \rho_{XZ}\rho_{YZ}}{\sqrt{(1-\rho_{XZ}^2)(1-\rho_{YZ}^2)}}$
- 复相关：多变量联合解释因变量的能力（如广告费+促销活动对销量的共同影响）。

二、章节递进关系与逻辑链条

从基础到复杂：
- 皮尔森（线性）→ 斯皮尔曼（非线性单调）→ 肯德尔（排序一致性）→ 质量相关（混合类型）→ 偏相关（多变量控制）。
- 递进逻辑：逐步放宽数据分布假设，适应更广泛的实际场景。
从单变量到多变量：
- 皮尔森/斯皮尔曼（双变量）→ 复相关（多变量联合效应）→ 偏相关（排除干扰变量）。
从参数到非参数：
- 皮尔森（需正态假设）→ 斯皮尔曼/肯德尔（仅需排序信息）→ 质量相关（无需分布假设）。
检验贯穿始终：
- 所有相关系数均需显著性检验（如T检验、Z检验），验证结果是否非随机。

三、章节关系流程图

相关分析概述（13.1）
│
├─ 皮尔森相关系数（13.2：线性、正态）
│   └─ 计算与检验（13.3：实现与验证）
│
├─ 斯皮尔曼等级相关（13.4：非线性、非正态）
│
├─ 肯德尔系数（13.5：小样本、同分修正）
│
├─ 质量相关分析（13.6：分类+连续变量）
│
└─ 偏相关与复相关（13.7：多变量控制与联合效应）

总结

相关分析像“关系探测器工具箱”

基础工具：
- 皮尔森：像“直尺”，只能量直线关系（比如身高体重），但要求数据“规规矩矩”（正态分布）。
- 斯皮尔曼：像“弯尺”，能量曲线趋势（比如收入与幸福感的U型关系），只看排名不看具体数值。
特殊场景装备：
- 肯德尔：像“投票计数器”，专门处理小样本或并列排名（如评委打分有多个并列第三名）。
- 质量相关：像“跨界翻译”，解决“男女成绩差异”这种分类+连续的问题。
高级组合技：
- 偏相关：像“去滤镜”，排除干扰因素（比如研究读书量与成绩的关系时，过滤掉“家庭背景”的影响）。
- 复相关：像“团队评分”，评估多因素合力效果（如广告+促销+定价共同影响销量）。