期望、方差、协方差、相关系数的理解

地球被支点撬走啦

已于 2022-02-13 13:11:16 修改

阅读量9.7k

点赞数 9

分类专栏：概率论/统计学机器学习文章标签：概率论 python 机器学习

于 2022-02-11 23:40:37 首次发布

本文链接：https://blog.csdn.net/Flag_ing/article/details/122881661

版权

机器学习同时被 2 个专栏收录

19 篇文章

订阅专栏

概率论/统计学

8 篇文章

订阅专栏

本文详细介绍了随机变量的统计特性，包括数学期望（均值）作为平均水平的度量，方差反映数据波动程度，协方差衡量两个变量间的相关性，以及无量纲的相关系数。方差计算中有除以n和n-1两种情况，分别对应总体方差和样本方差。协方差矩阵则用于描述多维随机变量的协方差结构，广泛应用于统计学和机器学习领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一句话概括：期望反映了平均水平，方差反映了数据波动程度，协方差反映了两个随机变量间的相关性（有量纲），相关系数反映了两个随机变量间无量纲的相关性。

1、数学期望（均值）

对随机变量及其概率的加权平均：

这里说的期望也就是均值，在统计学中大多数情况下是以样本来代替整体，因此样本的均值计算公式为：

2、方差 D(X) 或 Var(X)

用来了解实际指标与平均值之间的偏差情况，即反映了数据取值的分散程度。

若 X 取值集中，则其方差较小，反之， X 越分散其方差越大。

D(X) 满足以下性质：

当 X 与 Y 满足独立同分布（iid）时，，此时：

这里的就是后面要说的 协方差。

另外 标准差（均方差）的计算公式为：，与 X 具有相同的量纲。

在样本分析中，方差的计算公式为：

注意：这里除以的是1/(n-1)。

方差计算中为什么会出现除以 n 和除以 n-1 两种情况？：

除以 n计算的是总体方差，除以 n-1计算的是样本方差（也即总体方差的无偏估计）。但是现实中计算总体方差往往是不切实际的，而统计学的研究内容之一就是用样本推测总体，因此我们就常使用样本方差来代替总体情况。

为什么计算样本方差时是除以 n-1 呢？因为我们在计算样本方差前一定会计算样本均值 x （换句话说，会对样本求和），这就导致样本的 n 项如果确定了 n-1 项的话，第 n 项就一定可以确定，即自由度是 n-1，所以每项出现的概率是 1/(n-1) ，因此要除以 n-1。用线性代数的角度来说，这 n 个量不是独立的，若将 n 个量看成向量的话是线性相关的，可以由 n-1 个线性无关的向量表示。

如果除以 n 代表是在整体数据上做计算，此时所有的量的出现概率都是 1/n，因此此时的方差的计算是除以 n。但是这种情况大多是理想情况下的计算方式，而现实中绝大部分情况都是以样本估计总体，因此我们常见的方差计算公式就是除以 n-1 了。