协方差
协方差(Covariance)是在概率论和统计学中用来衡量两个随机变量或数据集之间线性关系的一个统计量。它描述的是两个变量在一组观测值中的变动是否一致。具体来说,协方差可以告诉两个变量是否倾向于在同一方向上变化(正协方差)或者是在相反的方向上变化(负协方差)。
对于两个随机变量 X X X和 Y Y Y,它们的协方差可以通过以下公式计算得出:
Cov ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] \text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] Cov(X,Y)=E[(X−E[X])(Y−E[Y])]
这里的 E [ X ] E[X] E[X]和 E [ Y ] E[Y] E[Y]分别代表随机变量 X X X和 Y Y Y的期望值(均值)。
在样本数据的情况下,协方差的计算可以简化为:
Cov ( X , Y ) = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) \text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) Cov(X,Y)=n−11i=1∑n(Xi−Xˉ)(Yi−Yˉ)
式中:
-
X
i
X_i
Xi和
Y
i
Y_i
Yi是两个变量
X
X
X和
Y
Y
Y的第
i
i
i个观测值。
-
n
n
n是观测值的数量。
-
X
ˉ
\bar{X}
Xˉ和
Y
ˉ
\bar{Y}
Yˉ分别是
X
X
X和
Y
Y
Y的样本均值。
协方差的符号(正或负)可以告诉两个变量之间的关系类型:
- 当 Cov ( X , Y ) > 0 \text{Cov}(X, Y) > 0 Cov(X,Y)>0时,表明 X X X和 Y Y Y倾向于同方向变化,即正相关。
- 当 Cov ( X , Y ) < 0 \text{Cov}(X, Y) < 0 Cov(X,Y)<0时,表明 X X X和 Y Y Y倾向于反方向变化,即负相关。
- 当 Cov ( X , Y ) = 0 \text{Cov}(X, Y) = 0 Cov(X,Y)=0时, X X X和 Y Y Y没有线性相关性。
需要注意的是,协方差的大小受变量量纲和尺度的影响,所以当需要比较不同变量之间的关系强度时,通常会使用标准化后的度量——相关系数。
相关系数
相关系数用于衡量两个变量之间的线性关系强度和方向。
总体
相关系数是标准化的协方差。给定两个随机变量 X X X 和 Y Y Y,它们的相关系数 r X Y r_{XY} rXY 可以通过它们的协方差和各自的方差来计算。数学表达式如下:
r X Y = Cov ( X , Y ) σ X σ Y r_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} rXY=σXσYCov(X,Y)
其中:
- Cov ( X , Y ) \text{Cov}(X, Y) Cov(X,Y) 表示 X X X 和 Y Y Y 的协方差,
- σ X \sigma_X σX 和 σ Y \sigma_Y σY 分别表示 X X X 和 Y Y Y 的标准差。
协方差 Cov ( X , Y ) \text{Cov}(X, Y) Cov(X,Y) 的定义为:
Cov ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] \text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] Cov(X,Y)=E[(X−μX)(Y−μY)]
其中 μ X \mu_X μX 和 μ Y \mu_Y μY 分别是 X X X 和 Y Y Y 的期望值(均值), E [ ⋅ ] E[\cdot] E[⋅] 表示期望运算。
标准差 σ X \sigma_X σX 和 σ Y \sigma_Y σY 可以分别表示为:
σ X = Var ( X ) = E [ ( X − μ X ) 2 ] \sigma_X = \sqrt{\text{Var}(X)} = \sqrt{E[(X - \mu_X)^2]} σX=Var(X)=E[(X−μX)2]
σ Y = Var ( Y ) = E [ ( Y − μ Y ) 2 ] \sigma_Y = \sqrt{\text{Var}(Y)} = \sqrt{E[(Y - \mu_Y)^2]} σY=Var(Y)=E[(Y−μY)2]
因此,相关系数 r X Y r_{XY} rXY 的完整表达式为:
r X Y = E [ ( X − μ X ) ( Y − μ Y ) ] E [ ( X − μ X ) 2 ] E [ ( Y − μ Y ) 2 ] r_{XY} = \frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sqrt{E[(X - \mu_X)^2]} \sqrt{E[(Y - \mu_Y)^2]}} rXY=E[(X−μX)2]E[(Y−μY)2]E[(X−μX)(Y−μY)]
样本
对于两个变量 X X X 和 Y Y Y,它们的相关系数 r r r 可以通过以下公式计算得出(通常称为皮尔逊相关系数):
r X Y = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) ∑ i = 1 n ( X i − X ‾ ) 2 ∑ i = 1 n ( Y i − Y ‾ ) 2 r_{XY} = \frac{\sum_{i=1}^{n}(X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \overline{X})^2}\sqrt{\sum_{i=1}^{n}(Y_i - \overline{Y})^2}} rXY=∑i=1n(Xi−X)2∑i=1n(Yi−Y)2∑i=1n(Xi−X)(Yi−Y)
其中:
- X i X_i Xi 和 Y i Y_i Yi 分别表示变量 X X X 和 Y Y Y 在第 i i i 个观测值上的值;
- X ‾ \overline{X} X 和 Y ‾ \overline{Y} Y 分别表示变量 X X X 和 Y Y Y 的样本均值;
- n n n 表示观测值的数量。
这个公式可以被简化为:
r
X
Y
=
∑
i
=
1
n
(
X
i
−
X
‾
)
(
Y
i
−
Y
‾
)
(
n
−
1
)
s
X
s
Y
r_{XY} = \frac{\sum_{i=1}^{n}(X_i - \overline{X})(Y_i - \overline{Y})}{(n-1) s_X s_Y}
rXY=(n−1)sXsY∑i=1n(Xi−X)(Yi−Y)
其中
s
X
s_X
sX 和
s
Y
s_Y
sY 分别是
X
X
X 和
Y
Y
Y 的样本标准差。
相关系数的值域是从 -1 到 1,即 [ − 1 , 1 ] [-1, 1] [−1,1]。当 r r r 接近于 1 1 1时,表示两个变量之间存在强正相关;当 r r r 接近于 − 1 -1 −1时,表示两个变量之间存在强负相关;而当 r r r 接近于 0 时,则表示两个变量之间几乎不存在线性关系。
- 完全正相关:当相关系数为 1 时,表示两个变量之间存在完全正相关关系。这意味着一个变量的增加总是伴随着另一个变量的增加,且变化的比例相同。
- 完全负相关:当相关系数为 -1 时,表示两个变量之间存在完全负相关关系。这意味着一个变量的增加总是伴随着另一个变量的减少,且变化的比例相同。
- 无相关性:当相关系数为 0 时,表示两个变量之间没有线性关系。