统计

几种不同的检验
数理统计学了这么多年,唯一的感觉就是没学透。很多东西搞不清楚,检验(testing)就是其中一项。提到检验,脑子里浮现出来的就是T检验,NP引理,显著性水平,置信区间什么的,不成体系。记得王老师有讲过显著水平的意义,可是当时并未完全理解,也就一直这么糊里糊涂的过来了。2005年的The American Statistician中有一篇文章,题为Testing Fisher, Neyman , Pearson, and Bayes. 这篇文章描述了不同检验的逻辑脉络,对于有一定数理统计学基础,但是有没有研究的那么深刻,比如我这样的童鞋来说,可以说是醍醐灌顶的。文章不长,只有六页,感兴趣的童鞋可以自己上网搜搜看看。下面写点读文章的体会。
统计学界最有名的争论之一,是Fisher与Neyman-Pearson之间关于如何进行检验之间的争论。另外一个最有名的争论,则是Fisher和巨大多数贝叶斯学派之间的争论。这篇文章,则是通过一个简单的例子,来展示不同的检验方法。结论是Fisher的检验与NP检验,Bayes检验不可比,原因是它检查的是一个不同的问题。而Bayes检验,则相对NP检验更加好。
下面通过一个简单的例子来看看这些不同的检验自身的逻辑基础以及他们之间的异同。
1. Fisherian Tests
“Fisher的检验”这个称呼完全是这篇文章的作者为了叙述方便给起的。Fisher自己并没有给他提出的检验方法起这样一个名字。事实上,Fisher的检验,其本质是对显著性的检验(tests of significance),相比之下,NP检验则是一种对假设的检验(tests of hypotheses)。
从名字的不同,我们可以看出一些端倪。Fisher的检验,完全不会涉及到备择假设。(alternative hypothesis),这种检验可以作为一种模型验证过程。其逻辑是这样的:我们有了一个模型的分布情况,然后我们检查我们的数据对于这个模型看起来是不是很奇怪。
我们举个简单的例子来说明这个事。随机变量可以取四个值r=1,2,3,4,随机变量的分布则取决于参数θ,θ可以取值0,1,2.分布情况如下表所示。
 
若要检验的假设为H0:θ=0,则Fisher的检验是完全基于如下的分布情况的:
 
有了分布情况,我们就可以看出哪些值很奇怪,而哪些值不是。比如在这个例子中,如果我们的显著性水平alpha=0.01,显然,奇怪的观测值就为r=2,3,然后是r=4。对于显著性水平alpha=0.01的检验,我们在观测到2或者3的时候拒绝这个模型,当alpha=0.02时,我们观察到2,3,4的时候拒绝模型。
为了替代显著性水平alpha,Fisher用p值来评估检验。所谓的p值,是指看到奇怪的观测的概率,或者比你看到的更奇怪的概率。在我们的例子中,最奇怪的观测是2和3,它们俩是一样奇怪的,因此p值是0.01(0.05+0.05)。如果你观察到了4,那么2和3都是比4更奇怪的,因此p值是0.02(0.1+0.05+0.05)
 
在Fisher的检验中,p值是比alpha值更为基本的概念。从技术上讲,alpha值仅仅是一个进行选择的准则,换句话讲,alpha只是一个选择的临界点,来判断那些观测是奇怪的,那些是不奇怪的。如果p值小于alpha,则拒绝我们的原假设的模型。
Fisher检验的逻辑基础是通过反例来进行证明。我们假设一个模型,然后我们通过观测到的样本来检查我们的假设,如果观测很奇怪,对于我们的假设模型,这样的观测是非常不可能出现的,那么我们就拒绝我们的假设。P值则给出了一个度量,来度量数据与模型并不矛盾的程度。(p值越大,与假设的模型越不矛盾)。
对于一个通过反例来证明的过程,结果往往可能会被误解。如果数据与模型矛盾,我们就有证据来拒绝模型,但是如果数据与模型并不矛盾,我们或许可能试图证明模型是正确的。但是从逻辑上讲,我们只是还没有证明我们的模型是错误的,从而拒绝他,但是并不能证明正确性。不拒绝,是一种态度,并不是接受,而是仅仅因为没有证据能够证明模型不好。永远不要去接受一个原假设模型。
上面以及提到,Fisher检验,并不需要备择假设。但是NP检验和Bayes检验,则都需要备择假设。我们下面通过不同的备择假设,来分别介绍NP和Bayes检验的逻辑。
2. SIMPLE .V.S .SIMPLE
在学习数理统计假设检验的过程中,首先遇到的假设检验就是简单对简单的。比如,H0:θ=0,H1:θ=2。这样,我们的检验问题,其实就变成了一个选择问题,我们有两个选项,我们要从中选择一个。Fisher反对NP检验的原因,也最初是基于此的。
对于这个检验问题,我们需要的信息如下
 
在进行正式的假设检验的过程之前,我们先来看看这个问题的分布情况。如果我们看到r=4,我们就比较倾向于认为θ=2,而我们如果看到r=1,则我们倾向于认为θ=0,如果我们看到r=2或者3,我们依然可以认为数据来自于θ=0这个模型的可能性(注意这里的措辞)是五倍于θ=1这个模型。
虽然Fisher的检验并不涉及到备择假设,但是我们可以对两个假设分别进行Fisher的检验,然后比较检验的结果。对于假设θ=0,r=2,3,4时候都有比较小的p值,而对于假设θ=2,r=2,3的时候p值比较小。当r=4的时候,我们不能拒绝θ=2;当r=1的时候,我们不能拒绝θ=0;当r=2,3的时候,两个假设我们都可以拒绝。Fisher的检验,并不强迫我们选择一个备择假设。
2.1. Neyman-Pearson Tests
NP检验,对于两个假设并不是同等对待的。检验问题H0:θ=0.VS.H1:θ=2往往和检验问题H0:θ=0.VS.H1:θ=2是不同的。我们检验前一个问题。
NP定理是为了寻找一个最好的显著性水平alpha,alpha是当原假设为真是拒绝原假设的概率。所谓的拒绝域,是指能够拒绝原假设的观测集,因此在原假设下,拒绝域的概率一定是alpha。所谓最好的检验,就是具有最高功效的检验,也就是当备择假设为真的时候,拒绝原假设的概率最高。
为了拒绝原假设而确定alpha的过程,强调有重复的抽样,因此大数定律告诉我们,大约有alpha次我们的选择会是错误的。为了理解显著性水平alpha的抽象意义,我们必须要考虑到随机化检验(randomized tests)。随机化检验的拒绝域是随机化的。举个例子来说,我们如何进行一个显著性水平alpha=0.0125的检验?三种不同的检验如下:
a) 只要r=4就拒绝,然后抛硬币,如果正面向上,那么当r=2的时候拒绝。
b) 只要r=4就拒绝,然后抛硬币,如果正面向上,那么当r=3的时候拒绝。
c) 只要r=2或者3,就拒绝,然后抛硬币两次,如果两次都是正面朝上,则当r=4的时候拒绝。
但是这样的过程是实践起来是很难说服人的。
NP引理,告诉我们最优的NP检验是基于似然比的,f(r|2)/f(r|0)。似然比值最大时,最优的NP检验给出拒绝的结果,因此alpha=0.01时,NP检验当r=4的时候是拒绝的。这个和Fisher的检验是完全不同的。(Fisher的检验当alpha=0.01时,是在r=2,3的时候拒绝)。对于显著性水品为0.01的NP检验而言,功效是0.9,而对于同样显著性水平的Fisher检验,功效则为0.01+0.01=0.02。很显然,对于有备选的情况下,Fisher的检验并不是特别适用,因为Fisher的检验本身就不是为了这种问题而设计的。对于Fisher的检验和NP检验而言,alpha的概念是不同的。这两种检验之间并没有可比之处。了解了两种检验的逻辑基础,我们就可以有选择的选择,从而适用某些特定的问题。
下面的例子,让我们看到p值,在NP检验中没有起到什么作用。
比如检验问题是H0:θ=1.VS.H1:θ=2,则最优的NP检验当r=4的时候拒绝,然而,在原假设下,r=4的概率是0.5,是最可能被观测的值。这说明NP检验的逻辑基础,并不是通过反例来证明,而且整个检验的过程中,确实没p值什么事儿。
另外,值得注意的是,原假设与备择假设的选择也是非常重要的,你需要选择哪个假设作为原假设,这也是一个选择的过程。即便如此,NP检验表现的也并不怎么好。再举一个例子,显著性水品alpha=0.02的NP检验H0:θ=0.VS.H1:θ=2的拒绝域包括了r=2,3,但是2,3在原假设下也比备择假设下看上去出现的可能性要大四倍。在两种假设下,2,3都是比较奇怪的观测,但是我们在这两个假设中进行选择,当r=2,3的时候拒绝了θ=0,从而接受了θ=2,这看起来并不合理。而下面要介绍的贝叶斯检验,则比较好的解决了这个问题。
2.2. Bayesian Tests
Bayes就是要求我们对于参数θ有先验的概率分布。然后利用Bayes定理,将先验和当前的观测结合在一起,得到θ的后验概率分布。然后所有的关于θ的决策都建立在后验概率分布的基础上。而数据中的信息是从似然函数中来的。
在我们这个简单对简单的例子中,我们假设θ=0,2的先验概率分别为p(0),p(2),然后利用Bayes定理,我们就可以从数据中得出后验概率,记为p(0|r),p(2|r)。
 
具有较大后验概率的值将被接受。如果两个假设的后验概率都差不多,那么我们只能承认,我们也不知道那个假设是正确的了。Bayes检验的特点在于,它公平的对待了两个假设,不区分所谓的原假设与备择假设。
但是Bayes最引人争议之处,在于先验概率的确定。检验过程往往缺乏比较明确的先验信息。但是,如果我们的数据足够多,那么先验信息的影响力可能并不那么大。而如果我们的数据不那么充足,则先验信息影响很大,不同的先验信息得到的检验结果并不相同,但是我们为什么要期望检验的结果是相同的呢?在这个例子中,只要有r=1或者4这样一次观测就足以使我们作出决策,而如果观测是2或者3,则说明我们需要更多数据。
3. SIMPLE VERSUS COMPOSITE
我们现在考虑进行这样的检验H0:θ=0,H1:θ>0。我们的例子非常简单,直接观察表一,我们就能得到一些比较明确的结论。比如r=1时候,我们倾向于认为θ=0,r=4的时候,倾向于θ=2,r=2,3的时候,则倾向于θ=1。
对于这样的检验问题,Fisher的检验并没有什么特别值得说明之处。
而对于NP检验而言,我们期望得到的是均匀的最有功效的检验(uniformly most powerful test)。我们取θʹ,是一个大于0的值,然后我们把检验问题重新转化为简单对简单的
H0:θ=0,H1:θ=θʹ。如果对于对于给定的显著性水平alpha,最有功效的检验得到的拒绝域是相同的,而不考虑θʹ的值,这样的检验就被称为均匀的最有功效检验。比如说,对于alpha=0.01,r=4的时候拒绝就是均匀的最有功效检验。
没有偏见的贝叶斯检验,需要认为原假设和备选假设的出现概率是相同的,也就是说,在这个简单对复杂的问题中,先验信息为p(θ=0)=0.5,p(θ>0)=0.5,然后就是利用贝叶斯公式计算后验概率如下:
 
这个后验概率分布情况,相对来说对于检验就比较明确了。
4. 简单的小结
Fisher的检验的一些基本的想法是:
(1)对于数据,有个概率模型。
(2)对于多维的数据,有一个分布已知的统计量。
(3)已知的分布能够给那些奇怪的值进行排序。
(4)p值,用来评估奇怪的程度。
(5)alpha显著性水平是p值用来参考的。
NP检验的一些基本的想法是:
(1)对于数据,有两个可供选择的模型。
(2)alpha值是原假设为真时拒绝原假设的概率。
(3)拒绝域的选择适应了alpha值的定义。
(4)有很多基于功效函数的检验模式。
(5)在比较复杂的为体重,无偏性和不变性会用来约束功效函数。
在这篇文章的最后,作者提到,他们在教回归的时候,抛弃了NP想法,这个老师可能是Bayes学派的,他说”In theory courses I teach some NP testing because of its historical role and the face that other statisticians expect student to know it. If I could get away with it, I would teach introductory statistics from a Bayesian point of view” 。
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值