两列样本差异基因筛选

转自http://blog.sina.com.cn/s/blog_63329a920100o6yd.html


两列样本数据的差异基因筛选方法:

FoldChange法+FDR控制

其中,FDR值的计算方法如下:

1)对每个基因进行p-value的计算

假设观测到基因A对应的reads数为x,已知在一个大文库中,每个基因的表达量只占所有基因表达量的一小部分,在这种情况下,p(x)的分布服从泊松分布。已知样本一中唯一比对到基因组的总reads数为N1,样本二中唯一比对到基因组的总reads数为N2,样本一中唯一比对到基因A的总reads数为x,样本二中唯一比对到基因A的总reads数为y,则基因A在两样本中表达量相等的概率可由以下公式计算:



2)用FDR错误控制法对p-value作多重假设检验校正
FDR错误控制法是Benjamini于1995年提出一种方法,通过控制FDR(FalseDiscovery Rate)来决定P值的域值.假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。实践中希望错误比例Q=V/R平均而言不能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%.
对所有候选基因的p值进行从小到大排序,则若想控制fdr不能超过q,则只需找到最大的正整数i,使得p(i)<=(i*q)/m.然后,挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因,这样就能从统计学上保证fdr不超过q。因此,FDR的计算公式如下:

q-value(i)=p(i)*length(p)/rank(p)

 

参考文献:

1.Audic, S. and J. M. Claverie (1997). Thesignificance of digital gene expression profiles. Genome Res 7(10):986-95.

2.Benjamini, Y. and D. Yekutieli (2001). Thecontrol of the false discovery rate in multiple testing underdependency. The Annals of Statistics. 29: 1165-1188.



  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值