RankProd秩序乘积算法
内容主要引用自文章《RankProd: a bioconductor package for detecting differentially expressed genes in meta-analysis》
简单来讲就是指不同的数据集在找差异基因的时候,会有实验室效应,批次效应,所以需要单独放在各个数据集里分析,主要原理算法截取自文章
第一步准确的意思应该是假设只有一个数据集dataset1,拥有10000个基因,假设6个样本,实验组T1、T2、T3,对照组C1、C2、C3,那么针对于某个基因来讲,FC就等于
T1/C1、
T1/C2、
T1/C3、
T2/C1、
T2/C2、
T2/C3、
T3/C1、
T3/C2、
T3/C3
一共是得到了nTxnC=3x3=9
第二步
其实是按照每一次比较来排序的,比如第一次比较是T1/C1,那么gene1-gene10000都会有一个ratio,按照这个ratio进行排序,得到rank1-rank10000
第三步
按照上述的数据,一共比较了9次,那么比如TP53基因,就会得到9个rank值,相乘这9个rank,再取9次方根就得到了TP53这个基因的最终rank
相当于gene1-gene10000,就有了最终的rank排名。
假如多一个dataset2,原理也是一样,只不过前两步是在数据集内比较,第三步才汇总在一起取根号