大数据文摘出品
编译:武帅、宁静
我们在日常生活中做出决定时,总会在心里提前打个“小算盘“——估算一下概率值P,研究者做某项检测,根据概率值P,得出最终的结果;资本家做投资,根据以往数据的统计分布,估算P值,得出最终的决策等等。P值在潜移默化地影响着我们的生活,那么有没有想过我们所依赖的P值到底可靠吗?
P值的表面意义是,当原假设为真时,检验统计量出现某不应该值所需的概率;而其实际意义则是,只需多小的概率就能出现拒绝原假设的检验统计值。
Nature上的统计学家早就发现,P值本身无法提供支持相关模式或假说之证据,P值可能给我们每个人都上演了一场“楚门的世界”,先附上Nature链接,看看他们怎么说。
Nature链接:
https://www.nature.com/articles/d41586-019-00857-9
P值不可靠?
发布这篇文章的三位统计学家,分别是瑞士巴塞尔大学的动物学教授Valentin Amrhein,加州大学洛杉矶分校的流行病学的统计学教授Sander Greenland,伊利诺伊州埃文斯顿西北大学的统计学方法学家和营销学教授Blake McShane。
他们提出:“我们永远不应该仅仅因为P值大于0.05之类的阈值而得出“没有差异”或“没有关联” ,或者等价,因为置信区间包括零。我们也不应该断定两项研究之间存在冲突,因为一项研究结果具有统计学意义,另一项则没有。这些错误会浪费研究工作并误导政策决策。"
(注: α 显著性水平,是接受或拒绝原假设的概率分界点,如果p<α,就认为在1-α的置信水平下,样本观测值与总体假设值之间的差异是显著的,从而不能接受原假设,即拒绝原假设。 大家对0.05的显著性水平比较认可,把p<0.05作为了一种比较公认的判断标准,因而符合p<0.05的研究结果就比较容易得到发表)
同时,文章指出,当区间估计包括严重的风险增加时,得出结论认为统计上不显着的结果“无关联”是荒谬的。声称这些结果与显示相同观察效果的早期结果形成对比同样荒谬。然而,这些常见的做法表明,依赖统计显着性阈值可能会误导我们。(参见下图)
这些错误以及类似的错误普遍存在,对数百篇文章的调查发现,统计上不显着的结果被解释为“没有差异”或“没有影响”的约有一半。
这个发现说明,我们所看到的文献,都是所谓通过了显著性检验的部分,或者说都是符合研究者意图的部分,而对于那些没有通过检验、不符合研究者意图的研究到底是个