统计学笔记


5人法则–快速获得中值的93.75%置信区间

如果想要快速评估某个观测量中值的93.75%置信区间,可以采用最简单的5人法则。具体可以参见下述案例

如果想要知道一个公司员工上班所需时间的中值的93.75%置信区间,可以在公司所有员工中随机选取5个人,询问其上班所需用时,5个结果的最大值和最小值所构成的区间,就是该中值93.75%的置信区间

其基本原理是伯努利分布。任意一个人,其上班时间大于中值的概率是50%,如果连续5个人,其上班时间都大于中值的概率就是(0.5)5,即0.03125,同等的,连续5个人都小于中值的概率也是 (0.5)5,两者合在一起就是0.0625,换句话说,5个人里,有人的上班时间比中值大,有人比中值小的概率就是(1-0.0625),即0.9375,即93.75%。这就是“5人法则”成立的理论基础。注意应用该法则时,5个样本需要随机采样,且相互独立(例如不能存在某个人带另一个人上班,此时二者就是相关的,而不是独立的)。

精密度和准确度

二者定义是不同的。给定一组样本,其真实值是μ,样本的均值是E,方差是S,则衡量E与μ的差距为准确度,即样本的均值与真实值有多接近;衡量样本空间的误差范围为精密度(accuracy/repeatablity),即方差S的大小。E越接近μ,准确度越高,S越小,精密度越高。

需特别指出,精密度和准确度二者不是关联的,即准确不一定精密,精密也不一定准确。准确度高但精密度低,说明样本空间的中心靠近真实值,但是单个样本变化范围可能很大,即噪声水平很大,此时可以通过提高样本数量获得更好的真实值近似(样本的均值),但是单个的值可信度很低。准确度低但精密度高,说明样本整体的变化范围不大,但是样本空间的中心远离真实值,此时即使提高样本数量,也无法获得更好的真实值近似,哪怕每次的样本精度都很高。下图可以很好的说明精密度和准确度二者的关系。
在这里插入图片描述

进一步来说,准确度取决于系统误差,是系统的固有偏差,而精密度取决于随机误差。

为什么求方差除的是n-1而不是n

因为除以n-1得到的是无偏方差。所谓的无偏方差,是指与总体方差相比不存在偏差。这里需要区分两个概念,样本方差和总体方差。样本方差是指被观察对象实际抽样得到的评估样本的方差,而总体方差是指被观察对象的所有样本的方差。总体方差是个理想值,样本方差是根据有限的抽样数量得到的方差,如果随机采样的数量足够大,样本方差无线接近总体方差,例如1000个随机采样值,则样本方差约为总体方差的99.9%,如果10000个随机采样,则上升为99.99%,但是对于20个采样,样本方差约为总体方差的95%,此时偏差比较大,所以必须乘以一个校正系数
n n − 1 {n \above{2pt} n-1} n1n
此时得到的就是根据样本方差校正的后无偏方差,即总体方差。
具体推导过程可以参见此文《彻底理解样本方差为何除以n-1》

为什么经常说30个样本就是大样本量?

这个问题我还没有完全理清楚脉络,这里先记录一下当前的一些所得,后续可能会再更新。

很多统计学的课本以及实际工作生活中的应用,都把样本量30作为一个界限,大于30个样本就被认为是大样本,小于30个样本就认为是小样本,例如,如何快速评估一批工件的尺寸加工质量?常用的方法就是随机选取30个工件样本,测量其尺寸,然后计算样本均值和方差,按照95%的置信区间评估,其尺寸的范围在 [均值-方差*2,均值+方差*2] 的范围之内。那么,为什么是30个样本?30个就足够大了么?

解释这一点我看到有两种出发点,一个是从中心极限定理出发,一个是t检验出发,但是无论是哪一个,其结论都是当样本数量大于30个之后,抽样的分布已经很近似正态分布,继续提高样本数量,对于近似程度的改善并无巨大的提升,因此30就成为了一个分水岭。具体可以参见此文
为什么 30 个样本就称为「大样本」,而不是 40 或 50?

我个人观点是这里用“大样本量”这个说法并不够精准,我更倾向用“有效或者够用的样本量”这个说法。因为,当通过有限的随机样本观测来评估总体的情况时,一个直观的问题是,需要多少个样本是可以有效评估的,即样本的观测是可以反应整体的基本性质的?抽样的越多肯定越有效,但对应的成本消耗也很巨大,在实际应用中那么应该有一个界限值,当达到了这个抽样量,就可以断定,样本数量足够了,不需要进一步采样,此时就可以有效评估总体水平。这个“足够的抽样量”就是30,其原因就是中心极限定理再N=30时已经很接近正态分布,t检验也是同样的情况。继续增加样本数量,对于评估结果提升的“性价比”就很低了。

如果要解决的问题不是用样本观测总体,而是针对一组海量数据集分析其整体水平,那么30个样本的数量不止不能称为“大”,连“九牛一毛”可能都不是。因此,对于不同的目的,“大样本量”的定义有着本质的差别,而书本上的内容,其实并没有结合实际应用来解释,就容易产生误解。

无需计算即可估计群体中值90%置信区间的方法

此方法其实是5人法则的推广,其数学原理也是二项分布,不过就是把结论总结成表格,方便快速查用。

样本量下限:第n个最小值上限:第n个最大值概率
51193.8%
82293%
113393.5%
134490.8%
165592.3%
186690.4%
217792.2%
238890.7%
269992.4%
28101091.3%
30111190.1%

推断统计与描述统计

以前学习概率论和统计学相关知识时,经常会发现一些相同用法但概念不同的知识点,比如±1.96δ区间内的标准正态分布变量取值可以具有95%的发生概率,而95%置信区间的选择方式,也是±1.96δ。这两者有何联系?有何区别?一直以来,都是浑浑噩噩的。

直到知道了两个名词:推断统计描述统计,才真正明白究竟发生了什么。以下是基于百度百科的内容给出的二者说明与关系。(参考链接

推断统计是研究如何利用样本数据来推断总体特征的统计方法。比如,要了解一个地区的人口特征,不可能对每个人的特征一一进行测量,对产品的质量进行检验,往往是破坏性的,也不可能对每个产品进行测量。这就需要抽取部分个体即样本进行测量,然后根据获得的样本数据对所研究的总体特征进行推断,这就是推断统计要解决的问题。推断统计包括两方面的内容:总体参数估计假设检验

描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析离中趋势分析相关分析三大部分。

百度百科对于二者的区别做了一段非常精彩的描述

统计学中的描述派和推断派在本世纪二十至四十年代的对峙辩论,基本上可以说是以统计推断思想的迅速发展而告终结的。但到了六十年代,随着贝叶斯统计思想的勃兴,人们又回过头来从更为客观的角度上去认识整个统计学和其中的各种不同思想,并力图寻找到各种统计思想所赖以存在其根本意义一致的统计认识对象和认识方法,这就是我们所说的总体规律和概率论。这两点已成为西方各种统计思想流派所共同坚持的最本质的东西,是整个统计学的两个内核。但是,这种“泛性”统计学的观点仍然是建立在各种统计思想流派具有显著差别的基础之上的。就描述统计和推断统计而言,这种差别主要体现在以下三个方面:

首先,思想认识不同。描述统计认为只有通过大量观察(而非几个实验)才能全面和正确地反映出现象变化的规律性,而如果将这种观察仅仅局限于若干个少量的、局部的实验上,得出的结论必然是片面的,甚至是错误的。从哲学上看,它坚持可知论,反对人类智力有限论,认为人类完全有能力去进行大量的乃至全面的观察。与此相反,推断统计却极力反对那种泛泛地、全面地去搜罗大量的、庞杂的原始数据,认为与其这样,还不如将注意力集中在精确设计和控制之下的实验中,这样得到的资料才真正称得上翔实可靠,由此也才能更加准确地反映现象变化的规律性。

其次,采取的方式不同。这一点也正是思想认识不同所必然引申出来的差异。描述统计坚持大量观察,而推断统计则坚持样本分析,并且其实质是小样本分析。于是,大致可以这样说:描述统计的规律是在总体信息(全面数据)中“直接”显示出来的,是被描述(简缩)出来的;而推断统计的规律则是透过样本信息(局部数据)“间接”显现出来的,是被推断(估计或检验)出来的。

最后,逻辑结构不同。推断统计由于主张用样本去进行推断,因此,它必须首先构造出两个最基本的统计范畴,即总体和样本,而其他的统计范畴或概念则相对成为它们的次第的派生范畴或概念,可称之为子范畴或子概念。与此不同,对描述统计来说,这对基本范畴(尤其是后者)并非不可缺少的。若想借助于这对基本范畴来建立整个统计学的范畴或概念体系,则粗略地可以讲,描述统计属于大样本分析,而推断统计则属于小样本分析。

上面的话说了很多,我个人的理解可以总结为三点:

  1. 描述统计和推断统计从哲学理念上是互相对立的
    描述统计认为观察量足够后(即数据量足够多),事物的规律/特性是可以“统计”出来的(即归纳总结出来);而推断统计恰好相反,其核心理念是如何通过少量观察,掌握全体的基本特性。
  2. 描述统计和推断统计使用的数据工具都是总体规律和概率论
    这两个数学工具是所有统计思想都必须使用的工具,区别就在于如何去解释其使用的过程。
  3. 描述统计属于大样本分析,而推断统计则属于小样本分析
    一大堆数据找规律/特性,用概率论和统计的知识来做概括,这就是描述统计。一点样本数据,用概率论和统计的知识来做估算猜测,这就是推断统计。

置信区间

这是一个推断统计的概念。其目的是推测真值可能位于的区间范围,所谓置信,就是有多大的信心度,真值会落在此给定区间范围内。

置信区间的理论根基是中心极限定理和大数定律。其思想可以分成两个部分来说明,

  1. 任何一个概率分布,无论其服从什么概率密度函数,只要对其执行相同的采样过程(例如随机抽取10个样本作为一次采样),则采样结果的期望符合正态分布。(中心极限定理决定)
    意义:这一点,直接使得我们可以不用关心总体的概率分布情况,因为很多时候根本无法确定总体是什么分布,只要执行相同的采样过程,则有采样的期望构成的连续变量符合正态分布,只要研究这个分布就可以了。
  2. 有了上面的这个正态分布,该分布的期望依概率收敛于总体的期望(大数定律决定)

置信区间,其实就是基于第一点得到的正态分布来进行推断的,虽然有第二点的结论,可以得到总体期望的近似值,但是有时我们还需要知道总体期望的变动区间,于是,95%发生概率的正态分布变量其取值范围正好就是±1.96*δ,也即95%置信区间的上限和下限。

这就是置信区间的真实意义。
知乎上这篇文章对置信区间讲解的不错
如何理解 95% 置信区间?- 马同学的回答
另外有关大数定理和中心极限定理可以参考此文
大数定律具体是个什么概念? - 慕弋云子的回答

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值