P-value, qvalue, FDR什么区别?总被审稿人提起的多重假设检验校正是什么?

本文介绍了生物信息学研究中常见的多重假设检验问题及其校正方法,包括FamilyWise Error Rate和False Discovery Rate两种主要策略,并重点讲解了Bonferroni、Holm及Benjamini-Hochberg FDR的具体应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

生物信息学习的正确姿势

NGS系列文章包括NGS基础在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。

单次检验的I类错误

假设检验是用于检验统计假设的一种方法,其基本思想是“小概率事件”原理,即小概率事件在一次试验中基本上不会发生。

假设检验的基本方法是提出一个空假设(null hypothesis),也叫做原假设或无效假设,符号是H0。一次检验有四种可能的结果,用下面的表格表示:

9268a0867cbc3cf700493c26126ade84.png

  • Type I error,I类错误,也叫做α错误,假阳性。

  • Type II error,II类错误,也叫做β错误,假阴性。

可以通过下面这张图形象的看到差异。

186dbf2534fea69d22d8659e9a380cfc.png

多次检验使得犯I类错误概率增大

在传统的假设检验中,单个检验的显著性水平或I型错误率 (错误拒绝原假设的概率)为计算出的P-value。但随着检验次数的增加,错误拒绝原假设的概率即I型错误率大大增加。

例如:如果我们进行了m次假设检验,至少有1个假阳性的概率是多少?

错误拒绝原假设的概率 P(Reject H0|H0=True) = α

决策正确的概率 P(No Reject H0|H0=True) = 1-α

P(在m次检验全部决策正确)=(1-α)^m

P(在m次检验中至少一次决策错误) = 1-(1-α)^m

e2a2facb07e7d3b4a78b316714c50106.png

随着检验次数的增多,出现至少一次决策错误的概率快速提高。当说起“根据假设检验的次数校正p值”时,意思是控制整体的I型错误率

例如:当做差异基因检测时,每个基因分别进行检测生成一个p值。如果p值设置为0.05,每个差异基因识别出错的概率为5%。如果同时分析100个基因,按照p<0.05筛选的差异基因中有5个可能是差异不显著的。如果对一组10000个基因进行检测,按照p<0.05筛选的差异基因中有500个可能是差异不显著的。因此,同时进行多次统计检验时,校正每个基因的p值是很重要的。多重检验校正调整每个基因的p值,以使总体错误率小于或等于用户指定的p-cutoff value

如何进行多重假设检验校正?

Family Wise Error Rate校正法控制假阳性率为0

Family Wise Error Rate是控制全部比较中至少出现一次Type I error的概率,也就是控制假阳性率为0。这是很严格的方式。

通常有两种计算方法:

Bonferroni correction方法

如果要维持整个检测 (做了m次检测)的Type I error rate < 0.05,则需要设定p-value0.05/m作为筛选标准。反过来,如果我们做了10000次统计检测,采用Bonferroni correction方法校正后的p值就是原始P-value * 10000

当然,我们也只是借这个方法理解校正的计算方式,实际却不用这个方法。

这对其中任何一个检测是否差异统计显著是不公平的,因为它取决于检测的总数目。一个检测放在有100次检测的操作集合中可能统计显著,而放在有1000次检测的操作集合中可能统计就不显著了,这是不合适的。

Bonferroni adjustments are, at best, unnecessary and, at worst, deleterious to sound statistical inference.

Perneger (1998)

Holm 校正方法

Holm 校正方法相对没有那么严苛。假设针对10000个基因进行了统计检验,对所有的原始P-value进行由小到大的排序分别为p1, p2, ..., p10000,校正后的p为:p1*10000, p2*9999, ..., p10000*1

FDR校正法:允许一定的假阳性率

在实际应用中,我们希望减少Type I Error出现的可能,但也可以容许一定的假阳性率的存在。

Benjamini and Hochberg FDR (BH)

这是我们最常用的校正P-value控制假阳性率的方式。假设针对10000个基因进行了统计检验,对所有的原始P-value进行由小到大的排序分别为p1, p2, ..., p10000,校正后的FDR为:p1*10000/1, p2*10000/2, ..., p10000*10000/10000。与Bonferroni correction一致的地方是都乘以了检测总数,不一致的地方是BH算法在此基础上除去了各个原始p-value的排序值。

具体计算方式见下表(总检测次数为10次;控制FDR小于0.1

RankP-valueFDRFDR_formulaReject H0Reject_formula
10.00080.008=B2*10/A2TRUE=C2<0.1
20.0090.045=B3*10/A3TRUE=C3<0.1
30.1650.55=B4*10/A4FALSE=C4<0.1
40.2050.5125=B5*10/A5FALSE=C5<0.1
50.3960.792=B6*10/A6FALSE=C6<0.1
60.450.75=B7*10/A7FALSE=C7<0.1
70.6410.915714286=B8*10/A8FALSE=C8<0.1
80.7810.97625=B9*10/A9FALSE=C9<0.1
90.91=B10*10/A10FALSE=C10<0.1
100.9930.993=B11*10/A11FALSE=C11<0.1

BH法有时也称fdr法,是我们最常用的多重假设检验校正方法,可以很好的控制假阳性率和维持统计检出力。R函数p.adjust可用来计算一组p-value校正后的fdr值。(DESeq2中返回的padj也是用BH方法控制的FDR)

q-value是什么?

q-value是Storey和Tibshirani提出的基于p-value分布的FDR计量方法,具体见什么,你算出的P-value看上去像齐天大圣变的庙?

如何尽量减少统计检验次数

我们看到上面的校正方法多于统计检测次数有关,统计检测次数越多,校正也会越强烈。有没有合适的办法来规避一些无意义的统计检验呢?

  • WGCNA方法通过把基因聚类为模块再进行统计分析,大大降低了统计检验次数,具体见WGCNA分析,简单全面的最新教程

  • GSEA、GO等富集分析时合并相似的GO/KEGG通路再进行富集分析,如一文掌握GSEA,超详细教程中提到的合并共有基因数目超过70%的通路。

  • 差异基因分析时过滤掉极低表达的基因 (低表达基因通常生物意义小或检测噪声大,即便有差异也难分清是生物差异还是技术差异),如高通量数据中批次效应的鉴定和处理 - 系列总结和更新提到的方法。

    DESeq2中还额外进行了independent filtering进行进一步过滤提高统计检出率。

    没有通过过滤标准的基因校正后的padj赋值为NA (这也是之前总被问起的DESeq2结果中NA的来源)。

如何获得更小更稳定的检测P-value

References

  1. http://www.nonlinear.com/support/progenesis/comet/faq/v2.0/pq-values.aspx

  2. https://www.statisticssolutions.com/to-err-is-human-what-are-type-i-and-ii-errors/

  3. https://www.nature.com/articles/nbt1209-1135

  4. https://en.wikipedia.org/wiki/Multiple_comparisons_problem

  5. https://www.stat.berkeley.edu/~mgoldman/Section0402.pdf

  6. http://www.biostathandbook.com/multiplecomparisons.html

  7. http://nebc.nerc.ac.uk/courses/GeneSpring/GS_Mar2006/Multiple%20testing%20corrections.pdf

  8. https://www.gs.washington.edu/academics/courses/akey/56008/lecture/lecture10.pdf

  9. http://www.stat.columbia.edu/~gelman/research/published/multiple2f.pdf

往期精品(点击图片直达文字对应教程)

7596c31bf0bc12f1174183e39b34c59d.jpeg

655e38bfc30a06720915d1a676550835.jpeg

04cd16d67559703d6489da2076d9350f.jpeg

45ee3786c44fdf430007d85479feb939.jpeg

1edfdb87ac8155a86155c40378923feb.jpeg

6675f314e7661d5d71e477c12043c63a.jpeg

06a70b3289e6af3c58f8535eb719fd73.jpeg

b3d35a40e412afd6d16c64505f84e541.jpeg

a436e5b6658599a652309ca10336b8db.jpeg

d10ce3e6c6608edc3bdbe5d92fcdd82d.jpeg

54ca3984bc6ec470e02374024251cd20.jpeg

fb3defe59fd6028b419563185896d061.jpeg

795c702c5ff5ed0fbcec793c9e66e38c.png

1857ce39b8f8ad604d0fa8a71f9758ef.png

7ee62ced3296e67993ab90fd07b953bf.png

d784c572de6d9a1adfe17e87d63b932d.png

ff75113b5d9b929f1a0952b699ffcb06.jpeg

99e868f409d8b1ead48e7d7f718ef4e1.jpeg

b83eb37290742f6a3f79b65a6a1eec8c.jpeg

ae2b7508f488810976c2da2b13134028.jpeg

9c40bb646abf427601886c533edfa61c.png

84c5e07b198a312c7c16fea63972e33a.png

7152cb4a735a8c6027f5c0d094f30d92.jpeg

cc19fb32341bc16cd6102fb63c0936d4.png

1bcef0461eca58c8c589c2626d379145.png

007b97233a437839caa9e8763377f9d7.jpeg

e0900000bea1ebb4b64dfd3fdedc4b53.png

88ea72172b88d5e4d1a3fe3aa0c88834.png

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

7857b0fa7ecfb06366070e3a3f57f779.jpeg

f0ad5cbf95c69cae8f9378a296f3cc38.jpeg

b996c2f0fafb61a563b110c7382fdcf3.jpeg

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信宝典

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值