方差与协方差:统计中的“兄弟”指标
在统计学中,方差和协方差是两个核心概念,用来描述数据的分散性和变量间的关系。你可能听说过“方差衡量离散程度,协方差看相关性”,但它们到底有什么区别,又有哪些联系?今天我们就来聊聊这两个“兄弟”指标,从定义到公式,再到多变量场景,带你全面了解它们的奥秘。
什么是方差?
方差(Variance)是衡量单个随机变量离散程度(dispersion)的指标,表示数据点偏离其均值的平均平方距离。简单来说,它告诉你数据的“波动”有多大。
数学定义
对于一个随机变量 ( X X X ),其均值(期望)为 ( E [ X ] = μ E[X] = \mu E[X]=μ ),方差定义为:
Var ( X ) = E [ ( X − μ ) 2 ] \text{Var}(X) = E[(X - \mu)^2] Var(X)=E[(X−μ)2]
展开期望:
Var ( X ) = E [ X 2 − 2 X μ + μ 2 ] = E [ X 2 ] − 2 μ E [ X ] + μ 2 = E [ X 2 ] − μ 2 \text{Var}(X) = E[X^2 - 2X\mu + \mu^2] = E[X^2] - 2\mu E[X] + \mu^2 = E[X^2] - \mu^2 Var(X)=E[X2−2Xμ+μ2]=E[X2]−2μE[X]+μ2=E[X2]−μ2
所以:
Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 \text{Var}(X) = E[X^2] - (E[X])^2 Var(X)=E[X2]−(E[X])2
通俗例子
想象你在掷骰子,( X X X ) 是点数(1到6),均值 ( μ = 3.5 \mu = 3.5 μ=3.5 )。方差计算每个点数偏离3.5的平方平均:
- 数据波动小(如1和2),方差小。
- 数据波动大(如1和6),方差大。
什么是协方差?
协方差(Covariance)衡量两个随机变量 ( X ) 和 ( Y ) 如何一起变化,表示它们偏离各自均值的联合波动。简单来说,它告诉你两者是“同向”还是“反向”移动。
数学定义
对于两个随机变量 ( X X X ) 和 ( Y Y Y ),均值分别为 ( E [ X ] = μ X E[X] = \mu_X E[X]=μX )、( E [ Y ] = μ Y E[Y] = \mu_Y E[Y]=μY ),协方差定义为:
Cov ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] \text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] Cov(X,Y)=E[(X−μX)(Y−μY)]
展开期望:
Cov ( X , Y ) = E [ X Y − X μ Y − Y μ X + μ X μ Y ] \text{Cov}(X, Y) = E[XY - X\mu_Y - Y\mu_X + \mu_X\mu_Y] Cov(X,Y)=E[XY−XμY−YμX+μXμY]
= E [ X Y ] − μ Y E [ X ] − μ X E [ Y ] + μ X μ Y = E [ X Y ] − μ X μ Y = E[XY] - \mu_Y E[X] - \mu_X E[Y] + \mu_X\mu_Y = E[XY] - \mu_X\mu_Y =E[XY]−μYE[X]−μXE[Y]+μXμY=E[XY]−μXμY
所以:
Cov ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] \text{Cov}(X, Y) = E[XY] - E[X]E[Y] Cov(X,Y)=E[XY]−E[X]E[Y]
- 正协方差:( X X X ) 增加时 ( Y Y Y ) 也增加。
- 负协方差:( X X X ) 增加时 ( Y Y Y ) 减少。
- 零协方差:( X X X ) 和 ( Y Y Y ) 无线性关联。
通俗例子
还是掷骰子,( X X X ) 是第一次点数,( Y Y Y ) 是第二次点数。两者的协方差可能是零(因为独立)。但如果 ( Y = X Y = X Y=X )(每次点数相同),协方差就等于方差。
方差与协方差的联系
方差和协方差是一对“兄弟”,它们的联系非常直接:
1. 方差是协方差的特殊情况
如果 ( X = Y X = Y X=Y )(即同一个变量),协方差变成:
Cov ( X , X ) = E [ ( X − μ X ) ( X − μ X ) ] = E [ ( X − μ X ) 2 ] = Var ( X ) \text{Cov}(X, X) = E[(X - \mu_X)(X - \mu_X)] = E[(X - \mu_X)^2] = \text{Var}(X) Cov(X,X)=E[(X−μX)(X−μX)]=E[(X−μX)2]=Var(X)
所以,方差是变量与自身的协方差。这说明方差是协方差的一种特定形式。
2. 数学结构相似
- 方差:( Var ( X ) = E [ ( X − μ ) 2 ] \text{Var}(X) = E[(X - \mu)^2] Var(X)=E[(X−μ)2] )
- 协方差:( Cov ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] \text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] Cov(X,Y)=E[(X−μX)(Y−μY)] )
两者的核心都是“偏离均值的期望”,只是方差看单个变量,协方差看两个变量的联合。
方差与协方差的区别
尽管有联系,方差和协方差在定义和用途上有明显差异:
1. 对象不同
- 方差:描述单个变量的离散程度。
- 协方差:描述两个变量的相互关系。
2. 输出含义
- 方差:总是非负(( Var ( X ) ≥ 0 \text{Var}(X) \geq 0 Var(X)≥0 )),单位是变量平方的单位(如 ( °C 2 \text{°C}^2 °C2 ))。
- 协方差:可以是正、负或零,单位是两个变量单位的乘积(如 ( °C ⋅ mm \text{°C} \cdot \text{mm} °C⋅mm ))。
3. 可解释性
- 方差:直接衡量波动大小,数值越大,数据越分散。
- 协方差:只反映方向(正负),大小受变量尺度影响,难以直观比较。
多变量情况:协方差矩阵
当涉及多个变量时,方差和协方差的概念扩展到矩阵形式,称为协方差矩阵(Covariance Matrix)。
定义
对于一个 ( n n n ) 维随机向量 ( X = [ X 1 , X 2 , … , X n ] T X = [X_1, X_2, \dots, X_n]^T X=[X1,X2,…,Xn]T ),均值为 ( μ = E [ X ] \mu = E[X] μ=E[X] ),协方差矩阵 ( Σ \Sigma Σ ) 是:
Σ = E [ ( X − μ ) ( X − μ ) T ] \Sigma = E[(X - \mu)(X - \mu)^T] Σ=E[(X−μ)(X−μ)T]
矩阵元素为:
Σ i j = Cov ( X i , X j ) \Sigma_{ij} = \text{Cov}(X_i, X_j) Σij=Cov(Xi,Xj)
- 对角元素:( Σ i i = Var ( X i ) \Sigma_{ii} = \text{Var}(X_i) Σii=Var(Xi) ),是每个变量的方差。
- 非对角元素:( Σ i j = Cov ( X i , X j ) \Sigma_{ij} = \text{Cov}(X_i, X_j) Σij=Cov(Xi,Xj) )(( i ≠ j i \neq j i=j )),是变量间的协方差。
例子
假设 ( X = [ X 1 , X 2 ] T X = [X_1, X_2]^T X=[X1,X2]T ) 表示身高和体重:
Σ = [ Var ( X 1 ) Cov ( X 1 , X 2 ) Cov ( X 2 , X 1 ) Var ( X 2 ) ] \Sigma = \begin{bmatrix} \text{Var}(X_1) & \text{Cov}(X_1, X_2) \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) \end{bmatrix} Σ=[Var(X1)Cov(X2,X1)Cov(X1,X2)Var(X2)]
- ( Var ( X 1 ) \text{Var}(X_1) Var(X1) ):身高的方差。
- ( Cov ( X 1 , X 2 ) \text{Cov}(X_1, X_2) Cov(X1,X2) ):身高和体重的协方差(对称矩阵,( Cov ( X 1 , X 2 ) = Cov ( X 2 , X 1 ) \text{Cov}(X_1, X_2) = \text{Cov}(X_2, X_1) Cov(X1,X2)=Cov(X2,X1) ))。
实际应用
1. 数据分析
- 方差:评估单个变量的稳定性。比如,方差大的考试成绩说明学生水平差异大。
- 协方差:探索变量关系。比如,身高和体重的正协方差提示两者相关。
2. 参数估计
在统计中,协方差矩阵(如 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)−1 ))给出估计量的精度,而方差是其对角元素。例如,Cramér-Rao界:
Cov ( θ ^ ) ≥ I ( θ ) − 1 \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} Cov(θ^)≥I(θ)−1
可以参考笔者的另一篇博客:Cramér-Rao界:参数估计精度的“理论底线”
3. 机器学习
- PCA(主成分分析):协方差矩阵的特征分解找到数据的主方向,方差决定保留哪些维度。
- 回归模型:协方差分析变量间的多重共线性。
总结
方差和协方差是统计学中的“兄弟”指标:方差是单个变量的离散度,协方差是两个变量的联合波动。方差是协方差的特例(( Var ( X ) = Cov ( X , X ) \text{Var}(X) = \text{Cov}(X, X) Var(X)=Cov(X,X) )),但用途不同——方差看分散,协方差看关系。在多变量场景下,它们融合成协方差矩阵,成为理解数据结构的关键工具。下次分析数据时,不妨用方差看看波动,用协方差探探关联,二者结合,数据故事更完整!
后记
2025年2月25日13点33分于上海,在Grok 3大模型辅助下完成。