偏差、方差、标准差、协方差

ProfMoriarty

于 2021-05-06 15:14:30 发布

阅读量4.3k

点赞数 1

分类专栏：数据笔记读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42508236/article/details/116427887

版权

本文介绍了统计学中的基本概念，包括期望值、偏差（描述预测值与真实值的差距）、方差（衡量数据离散程度）和标准差（方差的算术平方根）。详细讲解了总体与样本的方差和标准差的计算，以及协方差（衡量两个变量间的关系）和相关系数的概念，帮助理解变量间的相关性强度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

1 期望值（Expectation）
2 偏差（Bias）
3 方差（Variance）
- 3.1 总体方差（Population Variance）
- 3.2 样本方差（Sample Variance）
4 标准差（Deviation）
- 4.1 总体标准差（Population Standard Deviation）
- 4.2 样本标准差（Sample Standard Deviation）
5 协方差（Covariance）
- 5.1 协方差（Covariance）
- 5.2 协方差矩阵（Covariance Matrix）
5.3 相关系数

1 期望值（Expectation）

一件事情有n种结果，每一种结果值为 $x_i$ ，发生的概率记为 $p_i$ ，那么该事件发生的期望为：

$E=\sum_{i=1}^{n}{x_i}{p_i}$

2 偏差（Bias）

定义： 描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据。
$S^2=\frac{1}{n}\sum_{i=1}^{n}{(y_i-f(x_i))}^2$
$y_i$ 表示预测值， $f(x_i)$ 表示真实值。 偏差描述了准确性。

3 方差（Variance）

3.1 总体方差（Population Variance）

定义： 描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散。

$\sigma^2=E[(X-\mu)^2]$
其中： $\mu$ 为全体平均数。方差描述了稳定性。

注：
上面的式子需要知道 $X$ 的具体分布是什么（在现实应用中往往不知道准确分布），计算起来也比较复杂。

3.2 样本方差（Sample Variance）

定义： 在真实世界中，除非在某些特殊情况下，找到一个总体的真实的方差是不现实的。因此，从总体中取出 $n$ 个样本，用各样本值与样本算数平均数的离差平方的平均数对 $\sigma^2$ 进行估计。

有偏估计： 现实中往往并不清楚 $X$ 服从什么分布，但若知道 $\mu$ 的真值，则可对 $X$ 采样，并通过下式来估计 $\sigma^2$ ：
$S^2=\frac{1}{n}\sum_{i=1}^{n}{(X_i-\mu)}^2$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。