浅谈统计检验效能和FDR

最近写的文章,朋友过目后提出的问题让我自己感觉到本科阶段的学习没有做一个非常好的总结,应付完考试之后,早已忘到九霄云外,现在的我通过写博客,一点一点找回来。

什么是统计检验的效能(power)?

我们首先来回顾一下,在假设检验中,我们需要什么。

(1)原假设( H 0 H_{0} H0):可以认为是辩论赛中,保守一方的观点(e.g. 超级英雄和普通人没啥区别)
(2)备择假设( H A / H 1 H_{A}/H_{1} HA/H1):可以类比为辩论赛中,激进一方的观点(e.g. 超级英雄就是爷,就是比普通人牛)

在做计算的过程中,会涉及到一个非常重要的数值 —— α α α(一般取0.05 或 0.01)

α α α的含义是:显著性水平、一类错误发生的概率(Type I Error)、弃真错误发生的概率。

从这里有需要再引入几个概念,如下表:

H 0 H_{0} H0是正确的 H 0 H_{0} H0是错误的
接受 H 0 H_{0} H0接受 H 0 H_{0} H0 1 − α 1-α 1α β β β错误
拒绝 H 0 H_{0} H0 α α α错误接受 H 1 H_{1} H1 1 − β 1-β 1β

β从α衍生出来,是二类错误发生的概率(Type II Error)、取伪错误发生的概率。

在假设检验过程中,我们把拒绝原假设后,接受正确的备择假设的概率称为统计检验的效能/功效(statistical power),因此其在数值上等于 1 − β 1-β 1β
【个人理解】 1 − β 1-β 1β,实际上就是确定两个样本的总体有差异之后,假设检验能够顺利根据样本推断出真实的总体信息的概率。

什么是FDR(false discovery rate)?

结合时事,我就拿新冠检测作为例子。
假设对100个人进行核酸检测,检测结果分别如下:

被测对象真实情况:阳性被测对象真实情况:阴性
新冠检测结果:阳性52
新冠检测结果:阴性390

可以得到2个指标的计算结果,如下:
(1)true positve rate(sensitivity,即灵敏度):检测出的真实阳性样本数 除以 所有真实阳性样本数
5 5 + 3 = 0.625 \frac{5}{5+3} = 0.625 5+35=0.625
(2)false positive rate:检测出的阳性样本数 除以 所有真实阴性样本数
2 2 + 90 = 0.0217 \frac{2}{2+90} = 0.0217 2+902=0.0217
还有一个非常重要的计算指标,是灵敏度(specificity),计算公式如下:
90 90 + 2 = 0.9783 \frac{90}{90+2}= 0.9783 90+290=0.9783
一张找来的总结表:
在这里插入图片描述

参考资料

[1] https://www.jianshu.com/p/d5ea74ca61f8
[2] https://blog.csdn.net/fish2009122/article/details/110040002
[3] 统计功效, 百度百科
[4] 真阳性率, 百度百度
[5] 假阳性率, 百度百科
[6] https://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值