(statistic) fisher的P值

//2014年5月6日

//2014年11月18日  增加1、8部分

//1和8是最正确的,和其他若有矛盾,则以1,8为准

0. P值的由来

R·A·Fisher(1890-1962)作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。(当时这一观点遭到了Neyman-Pearson的反对,他们认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率。这两种方法进行长期且痛苦的论战。虽然Fisher的这一观点同样也遭到了现代统计学家的反对,但是他对现代假设检验的发展作出了巨大的贡献。)

可是,那个年代,由于硬件的问题,计算P值并非易事,人们就采用了统计量检验方法,也就是我们最初学的t值和t临界值比较的方法。统计检验法是在检验之前确定显著性水平α,也就是说事先确定了拒绝域。但是,如果选中相同的α,所有检验结论的可靠性都一样,无法给出观测数据与原假设之间之间不一致程度的精确度量。只要统计量落在拒绝域,假设的结果都是一样,即结果显著。但实际上,统计量落在拒绝域不同的地方,实际上的显著性有较大的差异。(这里已经把P值和Neyman框架搅在一起了)


1.对P值的误用
人们一直都对P值批评不断。90年前P值诞生以来,被比作过蚊子(因为这东西烦人又挥之不去)、皇帝的新衣(因为P值的方法中到处都是显而易见却被所有人无视的问题)以及“不育的风流才子”手中的工具——这位“才子”强抢了科学佳人,却让科学佳人后继无人。一位研究人员表示,应该把“统计推论和假设检验”这个方法改个名字,叫做“统计假设和推论检验”(statistical hypothesis inference testing),大概因为这个名字的首字母缩写更符合它的气质。

讽刺之处在于,20世纪20年代,英国统计学家罗纳德·费希尔(Ronald Fisher)首次采用P值方法时,并没有打算把它作为决定性的检验方法。他本来只是用P值作为一种判断数据在传统意义上是否显著的非正式方法,也就是说,用来判断数据证据是否值得进行深入研究。P值方法的思路是先进行一项实验,然后观察实验结果是否符合随机结果的特征。研究人员首先提出一个他们想要推翻的“零假设”(null hypothesis),比如,两组数据没有相关性或两组数据没有显著差别。接下来,他们会故意唱反调,假设零假设是成立的,然后计算实际观察结果与零假设相吻合的概率。这个概率就是P值。费希尔说,P值越小,研究人员成功证明这个零假设不成立的可能性就越大。

将数据和背景知识相结合得出科学结论的过程是流动的、非数值化的。尽管P值的精确性显而易见,费希尔还是希望它只是这个过程的一部分。但是,科学家很快就开始利用P值来保证循证决策的严谨与客观。这一运动是20世纪20年代末,由费希尔的死对头、波兰数学家耶日·内曼(Jerzy Neyman)和英国统计学家埃贡·皮尔森(Egon Pearson)一手推动的。他们采用了一种新的数据分析框架,该框架中包括统计效力、假阳性、假阴性和很多其他如今在统计学概论课上耳熟能详的概念。他俩直接无视了P值这个指标。

双方争执不断,内曼批评费希尔的某些工作从数学上讲比“毫无用处”还糟糕,而费希尔对内曼的方法给出的评价是“无比幼稚”、“在西方学界中简直骇人听闻”。但是,就在双方争执不下时,其他研究人员的耐心渐渐耗尽了。他们开始给进行研究的科学家们编写统计学指南。但是其中很多作者并非统计学家,他们对两种方法都缺乏透彻的理解。结果就是他们把费希尔粗略的P值计算法硬塞进了内曼和皮尔森二人建立的规则严密的统计系统中,创造出了一种混合的方法,然后就出现了像“P值为0.05,即可将统计结果视为显著”这样的规则。古德曼说:“统计学家从没打算以现在的方式使用P值。


2.P值代表了什么
p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。
如果与普通的统计量假设检验相比的话,p值就是犯第一类错误的概率。(这里已经把P值和Neyman框架搅在一起了)

3.P值与普通的假设检验
可是,那个年代,由于硬件的问题,计算P值并非易事,人们就采用了统计量检验方法,也就是我们最初学的t值和t临界值比较的方法。统计检验法是在检验之前确定显著性水平α,也就是说事先确定了拒绝域。但是,如果选中相同的α,所有检验结论的可靠性都一样,无法给出观测数据与原假设之间之间不一致程度的精确度量。只要统计量落在拒绝域,假设的结果都是一样,即结果显著。但实际上,统计量落在拒绝域不同的地方,实际上的显著性有较大的差异。

4.P值不能比较与P值不是概率(虽然与前面矛盾。。。)
实际上,P值不能赋予数据任何重要性,只能说明某事件发生的机率。P < 0.01 时样本间的差异比P < 0.05 时更大,这种说法是错误的。
概率是一个建立在测度论上,满足三大公理的一个衡量证据的严密的“尺子”。但是对于p值,它的原始定义不是概率。

见 statistical inference by george casella and roger berger, p.397

“a p-value p(x) is a test statistic satisfying 0<=p<=1 for every sample x. small values of p(x) give evidence that the alternative model is true.”

之所以要引用这段话不是为了拉虎皮做幌子。有两个值得注意的地方。第一,它说的p值是一个统计量,是x的函数,因此它不是概率,虽然它也是【0,1】上的取值。第二,x是一个随机变量,那么p值同样是一个随机变量。(事实上,p值在原假设成立的情况上是默认为均匀分布的。)所以,同样的假设检验过程放在两次系统的取样上,你得到的只是一个随机变量(p值)的两次观测值,然后拿这两个随机值去比较大小,逻辑上是说不通的。。

另外,如果不好理解的话,可以看fisher的multiple testing, 他把多个假设检验的结果结合在一块来做p值的调整,其中一个假设就是,这多个p值在原假设成立的情况下是均匀分布的,因此他设计的新的统计量就是-2*sum(ln(pi))。那么,如果说p值可以衡量大小的话,为什么fisher不用最小的那个p值直接下结论,而要用这样一个复杂的公式去结合所有的p值,然后重新比较chi square的分位点来做决策呢?

5.P值应用
经常看到很多文献中说P>0.05无统计学意义,但也有很多写了P>0.05表示差异不显著,请问哪个说法是对的?
答:理解P值,下述几点必须注意:   ⑴P的意义不表示两组差别的大小,P反映两组差别有无统计学意义,并不表示差别大小。因此,与对照组相比,C药取得P<0.05,D药取得P <0.01并不表示D的药效比C强。   ⑵ P>0.05时,差异无显著意义,根据统计学原理可知,不能否认无效假设,但并不认为无效假设肯定成立。在药效统计分析中,更不表示两药等效。哪种将“两组差别无显著意义”与“两组基本等效”相同的做法是缺乏统计学依据的。   ⑶统计学主要用上述三种P值表示,也可以计算出确切的P值,有人用P <0.001,无此必要。   ⑷显著性检验只是统计结论。判断差别还要根据专业知识。样所得的样本,其统计量会与总体参数有所不同,这可能是由于两种原因

6.混淆点
谁来给我解释一下P值,检验水准和一类错误概率的问题. 比如,检验水准为0.05,现在p值为0.02,那么应该拒绝零假设,那么问题来了:犯一类错误的概率为多大(究竟该是0.05还是0.02),若按统计教材上解释两类错误那里说的,应该是0.05,但是按假设检验原理:出现不利于零假设的统计量的概率是0.02,也就是说我们的结论犯错误的概率是0.02(一类错误?)。
这个问题到底怎么解释,麻烦各位告诉我一下啊,反正我是混乱了。
答:这里糅杂了两样东西,检验水准与p值,其实p值检验中是不需要设立检验水准的。所以应该是0.02

7.注意点
理解P值,下述几点必须注意:
⑴P的意义不表示两组差别的大小,P反映两组差别有无统计学意义,并不表示差别大小。因此,与对照组相比,C药取得P<0.05,D药取得P <0.01并不表示D的药效比C强。
⑵ P>0.05时,差异无显著意义,根据统计学原理可知,不能否认无效假设,但并不认为无效假设肯定成立。在药效统计分析中,更不表示两药等效。哪种将“两组差别无显著意义”与“两组基本等效”相同的做法是缺乏统计学依据的。
⑶统计学主要用上述三种P值表示,也可以计算出确切的P值,有人用P <0.001,无此必要。
⑷显著性检验只是统计结论。判断差别还要根据专业知识。抽样所得的样本,其统计量会与总体参数有所不同,这可能是由于两种原因。


8.你所不知道的P值--对统计学的批判

http://blog.csdn.net/u013599826/article/details/41211401


参考:
http://cos.name/2008/12/p-value/
http://cos.name/2008/12/p-value-notes/
http://emuch.net/html/200704/463462.html





  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值