FDR校正的程序实现及严格程度对比
前言
做统计分析就离不开P value<0.05,而写过科研文章的人也都知道没有经过FDR校正的P值就像一盘散沙,不用风吹,走两步自个儿就散了。 那么FDR校正这个让人又爱又恨的东西是什么呢?又是如何实现呢?
原理是这样:设总共有m个候选基因,每个基因对应的p值从小到大排列分别是 p(1),p(2),...,p(m),则若想控制fdr不能超过q(如0.05),则只需找到最大的正整数i,使得 p(i)<= (i*q)/m.然后,挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因,这样就能从统计学上保证fdr不超过q。计算方法参考:http://stat.ethz.ch/R-manual/R-devel/library/stats/html/p.adjust.html
没听明白?再说简单点就是对统计分析结果产生的P值做一次筛选,对原始P值<0.05这个显著性的真实性用FDR校正后的新P值做判定。
下面对FDR校正的程序实现基于MATLAB和R分别进行介绍。
(一) MATLAB实现
mafdr函数
1. FDR = mafdr(PValues);
%最简单的实现方式,基于Storey procedure ( introduced by Storey, 2002),适用于P值数量>1000的情况,否则原则上会崩溃。我用MATLAB测试过,会出现warning,但不会报错。严格程度较低,如果你的 ttest P值不是特别显著(0.01-0.05),可以用这个试试,或许可以过FDR校正.
2.FDR=mafdr(P,'BH