p值小于0.05拒绝还是接受_P值的局限性 & 贝叶斯假设检定

[文章于2019年11月16日发表于公众号*荷兰高等心理统计联盟*,欢迎关注联盟,汲取心理学管理学研究方法学新视角]

I. What is p-value & why is it problematic?

P值的定义是“Given that the null hypothesis of no effect is true, the probability of events as, or more, extreme than the observed data.” 也就是在零假设(H0)为真的前提下,观察到与实际观测数据相同、或更极端事件发生的概率。

P值是由被称为现代统计学之父的英国遗传学家兼统计学家Ronald Fisher在19世纪30年代提出的,Fisher建议设置一个显著性水平(significance level)作为参照点去判断结果是否显著,亦即根据所得结果我们是否能拒绝零假设。他建议使用α = 0.05来判断结果是否显著,大约距离正态分布的均值两个标准差的水平。若p值很小,那么或则零假设为真、并且观察到与实际观测数据相同或甚至更极端事件发生的小概率发生了,亦或者零假设被拒绝,效果不为零。由此,p值小于0.05被视为确定实验结果有效性的一大标准,依照p值来决定拒绝或是无法拒绝零假设。因为这种假设检定建立在零假设的基础上,所以被称为「零假设显著性检验(Null Hypothesis Significance Testing, 简称NHST)」。

然而,越来越多的学者开始质疑统计显著性的概念以及Fisher的p值的局限性。以下列出了其经常被质疑的四点:

1. As, or more extreme: p值定义中的更极端事件如何定义?

淑女品茶是关于假设检验的一个著名例子。

Fisher一位女同事声称可以尝出一倍奶茶是先加的牛奶还是先加的茶。Fisher不信,就设计了一个简单的实验,给她六杯奶茶,其中三杯先加的奶三杯先加的茶,而女同事则要说出哪些先加的牛奶那些先加的茶。女同事的判断结果为RRRRRW (前五次判断正确, 最后一次错误),依照Fisher的定义,“As, or more extreme”事件包括六次中错误一次或者六次都判断正确,概率为(1/2)^6* (6+1) = 0.109。

贝叶斯的先驱者Harold Jeffreys对此提出了质疑-为什么是固定六次实验(fixed experiment)呢?J.B.S. Haldane提出了另一种实验方式,与其固定实验次数,他提出不断地实验直到第一次判断错误发生(sequential experiment)。基于这个观点,‘更极端事件’被定义为第一次错误发生在第六次尝试之后的事件,概率为(1/2)^6 +(1/2)^7 + (1/2)^8 + … = (1/2)^5 = 0.031。

那么究竟判断结果是否显著是应该基于固定次数的实验还是非固定次数实验呢?由于对显著性的判断会因 ‘更极端事件’的定义而变化,而这个界定到现在都没有完全达成共识,一些学者因而提出放弃‘更极端事件’的使用而放在‘所发生事件’的概率上,也因此有了贝叶斯学派

2. P-hacking & researcher degree of freedom

Chris Chambers在《心理学七宗罪(The Seven Deadly Sins of Psychology)》一书中提到了心理学的其中一个问题在于身为研究者的自由度,而这也是造成很多实证研究结果无法被重复的原因之一。与零假设显著性检验相对应的α= .05 代表着第一类错误(假阳性结果),零假设为真却被错误拒绝。0.05的界定,使得.049和.051的p值代表了截然不同的解释。很大一部分研究者(也许也包括你)在看到边缘显著(marginal signifi

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当地理探测器的p过大时,表示我们不能拒绝假设,即我们没有足够的证据来支持我们的研究假设。解决这个问题的方法是采取以下步骤: 首先,我们可以重新评估实验设计和数据收集过程,并确是否存在误差或偏差。可能的问题包括样本量过小、实验条件不标准化、测量方法不准确等。如果发现这样的问题,我们应该尝试纠正错误并重新进行实验或数据收集。 其次,我们可以尝试增加样本量。增加样本数量可以提高实验的统计功效,从而增加p的准确性。这可以通过增加被试者数量、重复实验次数或观测样本数量来实现。 另外,我们可以采用更加敏感的统计方法。如果使用的统计方法不够敏感,可能无法测到小效应,导致p较大。在这种情况下,我们可以尝试使用更加敏感的统计方法,例如非参数验或贝叶斯统计。 此外,我们还可以进行更深入的数据分析,包括子组分析、控制潜在混杂变量和调整因素等。通过这些分析方法,我们可以更准确地评估实验结果并确是否存在其他影响因素。 最后,我们应该谨慎解释结果并注意研究的局限性。即使p较大,也不能完全排除某种效应的存在。我们应该注意到我们的研究可能存在局限性,并在结果解释和推断时谨慎对待。这也是科学研究中的常态,不能因为p较大就认为实验结果没有任何意义。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值