13.1-13.7 相关分析全章逻辑框架与章节关系
一、章节内容与底层逻辑
-
13.1 相关分析概述
- 核心:定义变量间关联关系的类型(线性/非线性、正/负相关),提出“相关系数”概念。
- 底层逻辑:通过量化变量间协同变化的程度(如协方差),构建统一指标(如皮尔森系数)。
- 公式基础:
协方差 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) \text{协方差} = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y}) 协方差=n−11i=1∑n(Xi−Xˉ)(Yi−Yˉ)
-
13.2 皮尔森相关系数
- 核心:衡量连续变量间线性关系的标准方法。
- 底层逻辑:标准化协方差,消除量纲影响:
r = ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Y i − Y ˉ ) 2 r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} r=∑(Xi−Xˉ)2∑(Yi−Yˉ)2∑(Xi−Xˉ)(Yi−Yˉ) - 限制:需满足正态分布、线性假设,对异常值敏感。
-
13.3 计算与检验
- 核心:实现相关系数的计算与统计显著性验证(如T检验)。
- 底层逻辑:
- 计算:通过协方差矩阵生成相关系数矩阵(如Python的
numpy.corrcoef
)。 - 检验:T统计量验证相关性是否显著:
t = r n − 2 1 − r 2 t = r \sqrt{\frac{n-2}{1-r^2}} t=r1−r2n−2
- 计算:通过协方差矩阵生成相关系数矩阵(如Python的
-
13.4 斯皮尔曼等级相关
- 核心:衡量非线性单调关系的非参数方法。
- 底层逻辑:将原始数据转换为等级排序,计算等级差的皮尔森系数:
ρ = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \rho = 1 - \frac{6 \sum d_i^2}{n(n^2-1)} ρ=1−n(n2−1)6∑di2 - 优势:适用于非正态数据、非线性但单调的趋势(如评委打分一致性)。
-
13.5 肯德尔系数
- 核心:衡量排序一致性,尤其适合小样本或同分值场景。
- 底层逻辑:通过**协和对(C)与不协和对(D)**的比例计算:
τ = C − D 1 2 n ( n − 1 ) \tau = \frac{C-D}{\frac{1}{2}n(n-1)} τ=21n(n−1)C−D - 对比斯皮尔曼:更稳健的同分修正(Tau-b),计算复杂度更低。
-
13.6 质量相关分析
- 核心:混合数据类型(分类变量+连续变量)的关联性度量。
- 方法:
- 二列相关:人为二分连续变量(如考试成绩分为及格/不及格)。
- 点二列相关:自然二分变量(如性别)与连续变量的关联。
- 公式(点二列):
r p b = X ˉ 1 − X ˉ 0 S X p q r_{pb} = \frac{\bar{X}_1 - \bar{X}_0}{S_X} \sqrt{pq} rpb=SXXˉ1−Xˉ0pq
-
13.7 偏相关与复相关
- 偏相关:排除其他变量干扰后的“纯净”相关性(如教育水平与薪资的关系,控制工作经验)。
ρ X Y ⋅ Z = ρ X Y − ρ X Z ρ Y Z ( 1 − ρ X Z 2 ) ( 1 − ρ Y Z 2 ) \rho_{XY·Z} = \frac{\rho_{XY} - \rho_{XZ}\rho_{YZ}}{\sqrt{(1-\rho_{XZ}^2)(1-\rho_{YZ}^2)}} ρXY⋅Z=(1−ρXZ2)(1−ρYZ2)ρXY−ρXZρYZ - 复相关:多变量联合解释因变量的能力(如广告费+促销活动对销量的共同影响)。
- 偏相关:排除其他变量干扰后的“纯净”相关性(如教育水平与薪资的关系,控制工作经验)。
二、章节递进关系与逻辑链条
-
从基础到复杂:
- 皮尔森(线性)→ 斯皮尔曼(非线性单调)→ 肯德尔(排序一致性)→ 质量相关(混合类型)→ 偏相关(多变量控制)。
- 递进逻辑:逐步放宽数据分布假设,适应更广泛的实际场景。
-
从单变量到多变量:
- 皮尔森/斯皮尔曼(双变量)→ 复相关(多变量联合效应)→ 偏相关(排除干扰变量)。
-
从参数到非参数:
- 皮尔森(需正态假设)→ 斯皮尔曼/肯德尔(仅需排序信息)→ 质量相关(无需分布假设)。
-
检验贯穿始终:
- 所有相关系数均需显著性检验(如T检验、Z检验),验证结果是否非随机。
三、章节关系流程图
相关分析概述(13.1)
│
├─ 皮尔森相关系数(13.2:线性、正态)
│ └─ 计算与检验(13.3:实现与验证)
│
├─ 斯皮尔曼等级相关(13.4:非线性、非正态)
│
├─ 肯德尔系数(13.5:小样本、同分修正)
│
├─ 质量相关分析(13.6:分类+连续变量)
│
└─ 偏相关与复相关(13.7:多变量控制与联合效应)
总结
相关分析像“关系探测器工具箱”
-
基础工具:
- 皮尔森:像“直尺”,只能量直线关系(比如身高体重),但要求数据“规规矩矩”(正态分布)。
- 斯皮尔曼:像“弯尺”,能量曲线趋势(比如收入与幸福感的U型关系),只看排名不看具体数值。
-
特殊场景装备:
- 肯德尔:像“投票计数器”,专门处理小样本或并列排名(如评委打分有多个并列第三名)。
- 质量相关:像“跨界翻译”,解决“男女成绩差异”这种分类+连续的问题。
-
高级组合技:
- 偏相关:像“去滤镜”,排除干扰因素(比如研究读书量与成绩的关系时,过滤掉“家庭背景”的影响)。
- 复相关:像“团队评分”,评估多因素合力效果(如广告+促销+定价共同影响销量)。
核心逻辑:
- 不同工具对应不同“数据类型”和“关系类型”,从简单到复杂层层递进,就像修车师傅根据故障选择螺丝刀、扳手或电焊机。