p值小于0.05拒绝还是接受_P值的局限性 & 贝叶斯假设检定-CSDN博客

本文探讨了p值的局限性和贝叶斯假设检定的优势。p值的定义和问题，如其依赖于“更极端事件”的定义、p-hacking现象以及容易误导对无效果的假设的拒绝。相比之下，贝叶斯方法更注重实际观测数据，考虑先验知识，且不依赖预设实验次数。贝叶斯因子提供了更直观的证据比较，允许纳入先验信息，并能实时监控证据强度。虽然贝叶斯方法也有挑战，如先验分布的选择，但它为统计分析提供了有力补充。建议研究者了解并考虑使用贝叶斯统计推断来增强研究解释力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[文章于2019年11月16日发表于公众号*荷兰高等心理统计联盟*，欢迎关注联盟，汲取心理学管理学研究方法学新视角]

I. What is p-value & why is it problematic?

P值的定义是“Given that the null hypothesis of no effect is true, the probability of events as, or more, extreme than the observed data.” 也就是在零假设(H0)为真的前提下，观察到与实际观测数据相同、或更极端事件发生的概率。

P值是由被称为现代统计学之父的英国遗传学家兼统计学家Ronald Fisher在19世纪30年代提出的，Fisher建议设置一个显著性水平(significance level)作为参照点去判断结果是否显著，亦即根据所得结果我们是否能拒绝零假设。他建议使用α = 0.05来判断结果是否显著，大约距离正态分布的均值两个标准差的水平。若p值很小，那么或则零假设为真、并且观察到与实际观测数据相同或甚至更极端事件发生的小概率发生了，亦或者零假设被拒绝，效果不为零。由此，p值小于0.05被视为确定实验结果有效性的一大标准，依照p值来决定拒绝或是无法拒绝零假设。因为这种假设检定建立在零假设的基础上，所以被称为「零假设显著性检验(Null Hypothesis Significance Testing, 简称NHST)」。

然而，越来越多的学者开始质疑统计显著性的概念以及Fisher的p值的局限性。以下列出了其经常被质疑的四点：

1. As, or more extreme: p值定义中的更极端事件如何定义？

淑女品茶是关于假设检验的一个著名例子。

Fisher一位女同事声称可以尝出一倍奶茶是先加的牛奶还是先加的茶。Fisher不信，就设计了一个简单的实验，给她六杯奶茶，其中三杯先加的奶三杯先加的茶，而女同事则要说出哪些先加的牛奶那些先加的茶。女同事的判断结果为RRRRRW (前五次判断正确, 最后一次错误)，依照Fisher的定义，“As, or more extreme”事件包括六次中错误一次或者六次都判断正确，概率为(1/2)^6* (6+1) = 0.109。

贝叶斯的先驱者Harold Jeffreys对此提出了质疑-为什么是固定六次实验(fixed experiment)呢？J.B.S. Haldane提出了另一种实验方式，与其固定实验次数，他提出不断地实验直到第一次判断错误发生(sequential experiment)。基于这个观点，‘更极端事件’被定义为第一次错误发生在第六次尝试之后的事件，概率为(1/2)^6 +(1/2)^7 + (1/2)^8 + … = (1/2)^5 = 0.031。

那么究竟判断结果是否显著是应该基于固定次数的实验还是非固定次数实验呢？由于对显著性的判断会因 ‘更极端事件’的定义而变化，而这个界定到现在都没有完全达成共识，一些学者因而提出放弃‘更极端事件’的使用而放在‘所发生事件’的概率上，也因此有了贝叶斯学派。

2. P-hacking & researcher degree of freedom

Chris Chambers在《心理学七宗罪(The Seven Deadly Sins of Psychology)》一书中提到了心理学的其中一个问题在于身为研究者的自由度，而这也是造成很多实证研究结果无法被重复的原因之一。与零假设显著性检验相对应的α= .05 代表着第一类错误(假阳性结果)，零假设为真却被错误拒绝。0.05的界定，使得.049和.051的p值代表了截然不同的解释。很大一部分研究者(也许也包括你)在看到边缘显著(marginal signifi

p值小于0.05拒绝还是接受_P值的局限性 &amp; 贝叶斯假设检定

p值小于0.05拒绝还是接受_P值的局限性 & 贝叶斯假设检定