p值小于0.05拒绝还是接受_你真的了解"p值"吗?

在过去的两个月新型冠状病毒成为了像当年的SARS一样让人类陷入恐慌的狠角色,它更强的传播能力,兼具像HIV一样可潜伏的特性,让人类又一次开始认识了病毒。而人们对这种陌生的病毒没有资料库、没有理论指导、甚至没有足够的经验,在这个时候,那些珍贵的数据资料就成为了我们了解病毒、战胜病毒的关键。2020.1.24发表在柳叶刀的论文《Clinical features of patients infected with 2019 novel coronavirus in Wuhan, China》列举了最早确诊的41名患者的情况,包括出院率、死亡率、症状表现率以及症状变化的平均时长等;同样在24号发表的另一篇论文中《A familial cluster of pneumonia associated with 2019 novel corronavirus indicating person-to person transmission: a study of a family cluster》则详细展示了一家七口发病的时间资料;最近在1.30日的文章《Early Transmission Dynamics in Wuhan, China, of Novel Coronavirus-Infected Pneumonia》则通过425确认患者的详细数据资料进行了分析。这些研究成果让我们逐渐了解了病毒,而这,都是通过数据完成的。

各国专家都在齐心协力,攻坚克难研究相应的特效药。而统计学在药品质量检测,流行病统计中则同样发挥着巨大的作用。

统计学家是唯一一个能与所有科学家打交道的科学家,而假设检验就是统计学家用来与其他科学家打交道的一个常用工具。假设检验被广泛的应用到工业、经济、医学、农业、生态等各个学科和领域,比如,我们需要了解工业质量控制是否有效、经济调控是否起到了作用以及不同药物的对某种疾病的疗效是否具有显著性等等。而p值作为假设检验中的一个核心概念,能够克服显著性水平的一些缺点,因此广泛的得到了关注。

今天想和大家一起来探讨一下科研当中经常遇到的p值。相信很多本科生甚至是研究生,都曾被这个神奇的统计学概念深深困扰着。对于深耕统计学专业的我们,搞明白p值的含义既是挑战也是基本素养。今天就把自己学习的心得和大家分享一下。有许多要发表科研论文的同学不止一次的问过我:(1)是p值小于0.05还是大于0.05的时候结论正确?(2)为什么p值小于0.05时,拒绝原假设?(3)p值与0.05比较还是0.01?

前两个问题可以通过讨论p值的含义解决;第三个问题可以通过讨论显著性水平,记为

355de04af7a14c5bbcb8a5087a6ae2b9.png

解决。 63f413f5c5ce5a4b477ac295726bd869.png

p值的含义

许多同学尽管一直在用p值在做科研或者数学建模,可是始终不知道p值到底是个东西?用统计学中一句比较拗口的话来解释:p值就是“拒绝原假设最小的显著性水平”。听到这里,相信和小编一样逻辑性转换能力比较差的同学已经晕了。不要晕,听小编给你解释一下:若我们想要拒绝原假设,你设置的显著性水平不能比p值再小了。即若设置的显著性水平比p值还小,那你只能乖乖的接受原假设;若设置的显著性水平比p值大,那就狠狠地拒绝原假设。

那为什么我们应该按照上述方法应用p值做出最后接受或者拒绝原假设的决定呢?这是因为我们比较p值与显著性水平的大小关系与判断检验统计量(记为T)是否落入拒绝域是一致的,假定我们的拒绝域(即作出拒绝原假设的所有可能的数的集合)形式为

f5b148d3decdcd1415a019d0a096b601.png

也就是说,当你计算的T值(记为

3b6ca1135e18b9c9ff21962c121f6f5e.png)

大于c时,才能拒绝原假设。那么c怎么确定呢?这里就需要显著性水平来帮忙了。利用显著性水平,就可以确定出临界值c,不妨记为

c4f71a6589de1f9db60825e18e1ee45f.png

则拒绝域就变为

864153a855896b287e1f4bf3aa55296c.png

那么如果有,

14b39b1b97adf9b14fdc0329fa6a3d00.png

我们必然得到,

81e267e5f065ba1728ac4a5811f2598a.png

这说明,基于你自己的实验或调查数据,计算出的检验统计量的观测值落入到了拒绝域里,所以做出拒绝原假设的判断。

c15fbf2794bbe7739a98c8775a30ad3c.png

(图片来自于《数理统计学》 茆诗松 吕晓玲编著)

简而言之,p值就是我们利用实际调查或你的实验数据通过带入抽样分布计算出的一个概率值。结合上图,假设计算出来的p=0.0179,如图4.2.6(a)中阴影区域所示。当显著性水平即阴影部分面积变大时,如图4.2.6(b)中阴影部分区域所示,即

4569685f64f3a3d2c68bc2d94ce1d13d.png

此时需要拒绝原假设;当显著性水平即阴影部分面积变小时,如图4.2.6(c)中阴影部分区域所示,即

98b822957c49a3f49e09f6dc3bd78ea7.png

此时需要接受原假设。这正是通过比较p值与显著性水平的大小关系来判断检验统计量是否落入拒绝域。

另外,从直观上讲,如果你的原假设是正确的,那这个p值不应该是一个较小的概率。然而,我们计算出来的p值往往很小,也就是小概率事件(概率值小于0.05或者0.01的事件)在我们的实验数据中经常出现,这是有悖原假设的。根据小概率事件就可以认为是不可能事件的原则,因此,当p值较小时,要作出拒绝原假设的决定。

63f413f5c5ce5a4b477ac295726bd869.png

显著性水平的含义

在上一个问题中,我们已经反复提到显著性水平这个名词了。说得简单易懂些,显著性水平就是我们设立的一个小概率事件的标准(如图4.2.6三幅图中阴影部分区域所示),你若认为比0.05小就已经是个小概率事件了,那显著性水平就设为0.05;你若觉得不够严格,比0.01小,才能算作一个小概率事件,那你就把显著性水平设置成0.01。以小编的经验来看,大部分科研工作者都会将显著性水平取作0.05,因为0.01实在太严格了,当然每个行业都有自己的标准,大家自行选取就好。但是我们要知道,越小的显著性水平,越难拒绝原假设。从图中来看,因为作出拒绝原假设就是要想让p值小于显著性水平。很显然,显著性水平越大,更容易作出拒绝原假设的决定。

看到这里相信大家对于一开始提出的3个问题已经有了答案:(1)是p值小于0.05还是大于0.05的时候结论正确? 当然是要看你的原假设是什么啦,但是p值小于0.05一定要拒绝原假设。(2)为什么p值小于0.05时,拒绝原假设?是因为你的实验或调查数据与你的原假设不符。(3)p值与0.05比较还是0.01? 参考行业标准;如果不知道,就与0.05进行比较。

思考

显著性水平设置为0.05时,为什么有的假设检验问题要将p值与0.025进行比较?

提示:考虑单边假设与双边假设。 

关注请微信搜索:统计程序狗(微信号:statistical_dog)

或微信扫描如下二维码: 

b701da8bb6534e1ff5e17f8a7e4fd64a.png

83d1381d8da1afc1627231d9b0d9aa0e.gif 0a6fd7b7acd817d757ba0d73111bcd9a.gif
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值