相关系数——总体与样本

总体

相关系数可以通过协方差来表示。给定两个随机变量 X X X Y Y Y,它们的相关系数 r X Y r_{XY} rXY 可以通过它们的协方差和各自的方差来计算。具体表达式如下:

r X Y = Cov ( X , Y ) σ X σ Y r_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} rXY=σXσYCov(X,Y)

其中:

  • Cov ( X , Y ) \text{Cov}(X, Y) Cov(X,Y) 表示 X X X Y Y Y 的协方差,
  • σ X \sigma_X σX σ Y \sigma_Y σY 分别表示 X X X Y Y Y 的标准差。

协方差 Cov ( X , Y ) \text{Cov}(X, Y) Cov(X,Y) 的定义为:

Cov ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] \text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] Cov(X,Y)=E[(XμX)(YμY)]

其中 μ X \mu_X μX μ Y \mu_Y μY 分别是 X X X Y Y Y 的期望值(均值), E [ ⋅ ] E[\cdot] E[] 表示期望运算。

标准差 σ X \sigma_X σX σ Y \sigma_Y σY 可以分别表示为:

σ X = Var ( X ) = E [ ( X − μ X ) 2 ] \sigma_X = \sqrt{\text{Var}(X)} = \sqrt{E[(X - \mu_X)^2]} σX=Var(X) =E[(XμX)2]

σ Y = Var ( Y ) = E [ ( Y − μ Y ) 2 ] \sigma_Y = \sqrt{\text{Var}(Y)} = \sqrt{E[(Y - \mu_Y)^2]} σY=Var(Y) =E[(YμY)2]

因此,相关系数 r X Y r_{XY} rXY 的完整表达式为:

r X Y = E [ ( X − μ X ) ( Y − μ Y ) ] E [ ( X − μ X ) 2 ] E [ ( Y − μ Y ) 2 ] r_{XY} = \frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sqrt{E[(X - \mu_X)^2]} \sqrt{E[(Y - \mu_Y)^2]}} rXY=E[(XμX)2] E[(YμY)2] E[(XμX)(YμY)]

这个公式表明了相关系数是如何通过协方差和方差来计算的。

样本

相关系数(通常指的是皮尔逊相关系数)用于衡量两个变量之间的线性关系强度和方向。其数学表达式如下:

对于两个变量 X X X Y Y Y,它们的相关系数 r r r 可以通过以下公式计算得出:

r X Y = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) ∑ i = 1 n ( X i − X ‾ ) 2 ∑ i = 1 n ( Y i − Y ‾ ) 2 r_{XY} = \frac{\sum_{i=1}^{n}(X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \overline{X})^2}\sqrt{\sum_{i=1}^{n}(Y_i - \overline{Y})^2}} rXY=i=1n(XiX)2 i=1n(YiY)2 i=1n(XiX)(YiY)

其中:

  • X i X_i Xi Y i Y_i Yi 分别表示变量 X X X Y Y Y 在第 i i i 个观测值上的值;
  • X ‾ \overline{X} X Y ‾ \overline{Y} Y 分别表示变量 X X X Y Y Y 的样本均值;
  • n n n 表示观测值的数量。

这个公式可以被简化为:
r X Y = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) ( n − 1 ) s X s Y r_{XY} = \frac{\sum_{i=1}^{n}(X_i - \overline{X})(Y_i - \overline{Y})}{(n-1) s_X s_Y} rXY=(n1)sXsYi=1n(XiX)(YiY)
其中 s X s_X sX s Y s_Y sY 分别是 X X X Y Y Y 的样本标准差。

请注意,相关系数的取值范围是从 -1 到 +1。当 r r r 接近于 +1 时,表示两个变量之间存在强正相关;当 r r r 接近于 -1 时,表示两个变量之间存在强负相关;而当 r r r 接近于 0 时,则表示两个变量之间几乎不存在线性关系。

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值