期望、方差、协方差、相关系数的理解

本文详细介绍了随机变量的统计特性,包括数学期望(均值)作为平均水平的度量,方差反映数据波动程度,协方差衡量两个变量间的相关性,以及无量纲的相关系数。方差计算中有除以n和n-1两种情况,分别对应总体方差和样本方差。协方差矩阵则用于描述多维随机变量的协方差结构,广泛应用于统计学和机器学习领域。
摘要由CSDN通过智能技术生成

目录

1、数学期望(均值)

2、方差 D(X) 或 Var(X)

3、协方差 Cov(X,Y)

4、相关系数 ρ

5、协方差矩阵


一句话概括:期望反映了平均水平,方差反映了数据波动程度,协方差反映了两个随机变量间的相关性(有量纲),相关系数反映了两个随机变量间无量纲的相关性。

1、数学期望(均值)

对随机变量及其概率的加权平均

这里说的期望也就是均值,在统计学中大多数情况下是以样本来代替整体,因此样本的均值计算公式为:

2、方差 D(X) 或 Var(X)

用来了解实际指标与平均值之间的偏差情况,即反映了数据取值的分散程度。

若 X 取值集中,则其方差较小,反之, X 越分散其方差越大。

D(X) 满足以下性质:

当 X 与 Y 满足独立同分布(iid时, ,此时:

这里的  就是后面要说的 协方差

另外 标准差(均方差)的计算公式为:  ,与 X 具有相同的量纲。

 在样本分析中,方差的计算公式为:

注意:这里除以的是1/(n-1)。

方差计算中为什么会出现除以 n 和除以 n-1 两种情况?:

除以 n计算的是总体方差  ,除以 n-1计算的是样本方差  (也即总体方差的无偏估计)。但是现实中计算总体方差往往是不切实际的,而统计学的研究内容之一就是用样本推测总体,因此我们就常使用样本方差来代替总体情况。

为什么计算样本方差时是除以 n-1 呢?因为我们在计算样本方差前一定会计算样本均值 x  (换句话说,会对样本求和),这就导致样本的 n 项如果确定了 n-1 项的话,第 n 项就一定可以确定,即自由度是 n-1,所以每项出现的概率是 1/(n-1) ,因此要除以 n-1。用线性代数的角度来说,这 n 个量不是独立的,若将 n 个量看成向量的话是线性相关的,可以由 n-1 个线性无关的向量表示。

如果除以 n 代表是在整体数据上做计算,此时所有的量的出现概率都是 1/n,因此此时的方差  的计算是除以 n。但是这种情况大多是理想情况下的计算方式,而现实中绝大部分情况都是以样本估计总体,因此我们常见的方差计算公式就是除以 n-1 了。

3、协方差 Cov(X,Y)

协方差用以描述两个变量间的相关性。协方差是一个具有量纲的量。

若X 与 Y 相互独立,则  。

4、相关系数 ρ

相关系数也用以描述两个变量间的相关性,但与协方差不同的是,相关系数是一个没有量纲的量,公式如下。

另外,称

X、Y的标准化。则有:

相关系数的性质:

  •  。  的值越大说明线性相关程度就越大,  值较大时称 X 与 Y 的线性相关度好;  时说明 X 与 Y 不存在线性关系,但可能存在其他关系,如对于服从  上的随机变量X来说,若X1=sinX,X2=cosX,虽然  ,但满足  。
  •  的充要条件:存在常数a、b,使得

5、协方差矩阵

 协方差矩阵用来描述多维随机变量不同维度间的协方差。

设n维随机变量  的二阶协方差为

​​​​​​​则矩阵

 称为n维随机变量  的协方差矩阵。由于  ,因此协方差矩阵也是对称矩阵,方差构成了其对角线上的元素,协方差构成了非对角线上的元素。一般地,n 维随机变量的分布是不知道的,或者太复杂,以致数学上不易处理,因此在实际应用中协方差矩阵就显得十分重要了。协方差矩阵广泛用于统计学与机器学习等领域。

  • 9
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

地球被支点撬走啦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值