机器学习系列 三 - 延伸 方差和样本方差

原创 2018年04月17日 16:01:48
课堂上的出来的结论:样本方差的和总体方差是不等的,而是存在一个无偏估计的系数(N-1)/N


先给出概念定义和公式:

样本均值样本方差为,总体均值(期望)为,总体方差为,那么样本方差有如下公式:




样本方差用来表示一列数的变异程度。样本均值又叫样本均数。即为样本的均值。

样本方差的公式为
 
其中
  
样本均值



如果已知随机变量  的期望为  ,那么可以如下计算总体方差  

这是方差的定义,使用随机一个样本减去均值的平方。

上面的式子需要知道  的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。

所以实践中常常采样之后,用下面这个  来近似  

下面就是用所有样本减去平均值的平方之后加和再取平均,希望能接近方差。

其实现实中,往往连样本总体 的期望  也不清楚,只知道样本的均值:

那么可以这么来计算  

那这里就有两个问题了:

  • 为什么可以用  来近似  
  • 为什么使用  替代  之后,分母是  
我们来仔细分析下细节,就可以弄清楚这两个问题。

我们来仔细分析下细节,就可以弄清楚这两个问题。

1 为什么可以用  来近似  

举个例子,假设  服从这么一个正态分布:

即,  ,图形如下:


当然,现实中往往并不清楚  服从的分布是什么,具体参数又是什么?所以用虚线来表明我们并不是真正知道  的分布:

很幸运的,我们知道  ,因此对  采样,并通过:

来估计  。某次采样计算出来的  


看起来比  要小。采样具有随机性,我们多采样几次,  会围绕  上下波动:

  作为  的一个估计量,算是可以接受的选择。

很容易算出:

因此,根据中心极限定理,  的采样均值会服从  的正态分布:

这也就是所谓的无偏估计量。从这个分布来看,选择  作为估计量确实可以接受。

2 为什么使用  替代  之后,分母是  
更多的情况,我们不知道  是多少的,只能计算出  。不同的采样对应不同的  


对于某次采样而言,当  时,下式取得最小值:

我们也是比较容易从图像中观察出这一点,只要  偏离  ,该值就会增大:

所以可知:

可推出:

进而推出:

如果用下面这个式子来估计:

那么  采样均值会服从一个偏离  的正态分布:


可见,此分布倾向于低估  

具体小了多少,我们可以来算下:

其中:

所以我们接着算下去:



————————————————————————————————————————————————————————————————

彻底理解样本方差为何除以n-1


设样本均值为,样本方差为,总体均值为,总体方差为,那么样本方差有如下公式:


    很多人可能都会有疑问,为什么要除以n-1,而不是n,但是翻阅资料,发现很多都是交代到,如果除以n,对样本方差的估计不是无偏估计,比总体方差要小,要想是无偏估计就要调小分母,所以除以n-1,那么问题来了,为什么不是除以n-2、n-3等等。所以在这里彻底总结一下,首先交代一下无偏估计。

无偏估计

    以例子来说明,假如你想知道一所大学里学生的平均身高是多少,一个大学好几万人,全部统计有点不现实,但是你可以先随机挑选100个人,统计他们的身高,然后计算出他们的平均值,记为。如果你只是把作为整体的身高平均值,误差肯定很大,因为你再随机挑选出100个人,身高平均值很可能就跟刚才计算的不同,为了使得统计结果更加精确,你需要多抽取几次,然后分别计算出他们的平均值,分别记为:然后在把这些平均值,再做平均,记为:,这样的结果肯定比只计算一次更加精确,随着重复抽取的次数增多,这个期望值会越来越接近总体均值,如果满足,这就是一个无偏估计,其中统计的样本均值也是一个随机变量,就是的一个取值无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。

    介绍无偏估计的意义就是,我们计算的样本方差,希望它是总体方差的一个无偏估计,那么假如我们的样本方差是如下形式:


那么,我们根据无偏估计的定义可得:



    由上式可以看出如果除以n,那么样本方差比总体方差的值偏小,那么该怎么修正,使得样本方差式总体方差的无偏估计呢?我们接着上式继续化简:


到这里得到如下式子,看到了什么?该怎修正似乎有点眉目。

    如果让我们假设的样本方差乘以,即修正成如下形式,是不是可以得到样本方差是总体方差的无偏估计呢?


则:



    因此修正之后的样本方差的期望是总体方差的一个无偏估计,这就是为什么分母为何要除以n-1。


概率统计与机器学习:期望,方差,数学期望,样本均值,样本方差之间的区别

1.样本均值:我们有n个样本,每个样本的观测值为Xi,那么样本均值指的是 1/n * ∑x(i),求n个观测值的平均值 2.数学期望:就是样本均值,是随机变量,即样本数其实并不是确定的 PS:从概率...
  • qq_33638791
  • qq_33638791
  • 2017-07-09 14:21:27
  • 5053

样本方差的无偏估计与(n-1)的由来

原文出处: http://blog.sina.com.cn/s/blog_c96053d60101n24f.html 在PCA算法中用到了方差,协方差矩阵,其中方差公式为,协方差矩阵公式为,当时不明白...
  • maoersong
  • maoersong
  • 2014-03-22 20:06:23
  • 14088

如何选择样本方差的计算方法

http://www.visiondummy.com/2014/03/divide-variance-n-1/1 简介 为了回答本文的标题,在这篇文章中将介绍正太分布数据的均值和方差计算公式。如果...
  • zc02051126
  • zc02051126
  • 2015-11-26 18:17:15
  • 3223

为什么样本方差里面要除以(n-1)而不是n?

前段日子重新整理了一下“为什么样本方差里面要除以(n-1)而不是n?”这个问题的解答,跟大家分享一下,如果有什么错误的话希望大家能够提出来,我会及时改正的                   ...
  • fuming2021118535
  • fuming2021118535
  • 2016-05-01 14:18:16
  • 32543

样本方差与总体方差

设有n个样本,x1,x2...xn 样本方差为 总体方差为 样本方差这么定义原因是为了五偏估计,是人为定义的,这里面涉及到相关数学证明。...
  • u014791046
  • u014791046
  • 2015-11-27 22:13:18
  • 371

为什么样本方差要除以n-1

使用样本来无偏估计总体方差的时候,公式如下:为什么分母是n-1,而不是n呢?这直觉上不太对。其实,如果分母为n,也可以成为一个估计值,但是它不满足无偏这个条件。仅在除以n-1时才满足无偏这个条件。所以...
  • feliciafay
  • feliciafay
  • 2010-09-11 20:17:00
  • 40729

方差,样本方差,修正样本方差,均值,样本均值等概念

首先,明确一点,方差,均值,是对一个随机变量而言的。样本均值,样本方差是针对一个样本而言的。   举个例子,x是一个随机变量,,服从0均值,方差。根据x的分布,我们可以抽样的到N个样本。   ...
  • u011467621
  • u011467621
  • 2015-08-25 09:19:00
  • 1530

彻底理解样本方差为何除以n-1

设样本均值为,样本方差为,总体均值为,总体方差为,那么样本方差有如下公式:    很多人可能都会有疑问,为什么要除以n-1,而不是n,但是翻阅资料,发现很多都是交代到,如果除以n,对样本方差的估计不是...
  • Hearthougan
  • Hearthougan
  • 2017-09-06 00:10:35
  • 10686

样本方差为何除以n-1

在重新学习统计学的过程中,我发现了一个被我忽视多年的问题,那就是总体方差是除以n,按理来说样本方差的分母也应该是除以n才对,而事实上,其分母却是除以n-1;我觉得这个问题还是值得研究一番的,在百度上搜...
  • Cynthiatsjclg
  • Cynthiatsjclg
  • 2015-07-25 13:36:50
  • 1660

方差与样本方差、协方差与样本协方差

1. 方差 连续型 离散型 2. 样本方差 3. 协方差
  • lanchunhui
  • lanchunhui
  • 2016-10-22 20:37:05
  • 2887
收藏助手
不良信息举报
您举报文章:机器学习系列 三 - 延伸 方差和样本方差
举报原因:
原因补充:

(最多只允许输入30个字)