标准差，协方差与相关系数

最新推荐文章于 2024-09-07 21:37:12 发布

泛起的涟漪

最新推荐文章于 2024-09-07 21:37:12 发布

阅读量1.4w

点赞数 3

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_40777691/article/details/84846704

版权

本文深入探讨了标准差、协方差和相关系数在统计学中的概念和作用。标准差衡量数据集的散布程度，方差的分母在估计时为n-1以提供无偏估计。协方差用于度量多维数据集内变量之间的关系，正值表示正相关，负值表示负相关。相关系数是协方差标准化后的形式，消除量纲影响，更直观地反映变量变化的相似程度，取值范围在-1到1之间，1表示完全正相关，-1表示完全负相关。

摘要由CSDN通过智能技术生成

学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合，依次给出这些概念的公式描述，这些高中学过数学的孩子都应该知道吧，一带而过。
在这里插入图片描述
很显然，均值描述的是样本集合的中间点，它告诉我们的信息是很有限的，而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例，[0，8，12，20]和[8，9，11，12]，两个集合的均值都是10，但显然两个集合差别是很大的，计算两者的标准差，前者是8.3，后者是1.8，显然后者较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。

为什么方差的分母是n-1?
结论：这个问题本身概念混淆了。如果已知全部的数据，那么均值和方差可以直接求出。但是对一个随机变量X，需要估计它的均值和方差，此时才用分母为n-1的公式来估计他的方差，因此分母是n-1才能使对方差的估计（而不是方差）是无偏的。因此，这个问题应该改为，为什么随机变量的方差的估计的分母是n-1?
一组数据，求其标准差，用除以n的那个。注意，这组数据是我们研究的全部，即总体。总体标准差。
如果我们研究的是总体，总体的规模很大甚至无穷，我们对总体进行n次观察，得到容量为n的一组数据，称为总体的一个样本，求标准差时应该用除以n-1的那个。
除以n-1的那个称为样本标准差，它是总体标准差的无偏估计。

如果我们已经知道了全部的数据，那就可以求出均值μ，sigma，此时就是常规的分母为n的公式直接求，这并不是估计！
现在，对于一个随机变量X，我们要去估计它的期望和方差。
期望的估计就是样本的均值在这里插入图片描述
现在，在估计的X的方差的时候，如果我们预先知道真实的期望μ，那么根据方差的定义：

这时分母为n的估计是正确的，就是无偏估计！
但是，在实际估计随机变量X的方差的时候，我们是不知道它的真实期望的，而是用期望的估计值去估计方差，那么：
在这里插入图片描述
所以把分母从n换成n-1,就是把对方差的估计稍微放大一点点。至于为什么是n-1,而不是n-2,n-3,…,有严格的数学证明。