首先进行差异表达分析
得到一堆相同基因前后表达统计量的数据,并分析其差异性。这个“前后”也可以指case和control组数据的比对,也可以是某种措施前后的比对。“表达统计量”可以是RNA的mappped reads数量,如果这个数字已经是normalized过的,需要在R包limma分析的时候加上“不做标准化操作”的参数,或者也可以直接用自己计算的p-value(t-test得到)和log2 foldchange来画图
一般可以用R的limma包进行差异分析。
原始输入数据:
1.表达矩阵,每一行是一个基因,每一列是一个样本,数值需要为numeric,检查不要出现“NA"情况。
![dcce731a001294856fb67f03f96a8eb0.png](https://i-blog.csdnimg.cn/blog_migrate/7c33b0b2b8d3f057e70b85253b851151.jpeg)
2.样本group_list分组信息,数值需要为numeric:
![4be3a8569a54071ce037ebeaa437779c.png](https://i-blog.csdnimg.cn/blog_migrate/9d0b61084319433adb40c3eb6563b110.png)
差异表达分析处理后:
P-value 从 t-test 中得到,FDR(adj.P.Val)从p-value得到,其余数值从数据直接得到。
![b64d01b9aa548765f58267ddefcc2617.png](https://i-blog.csdnimg.cn/blog_migrate/f2d999ce56c2b518a45b8ac278da59e5.jpeg)
ps: 为了检测基因是否是差异表达,需要执行零假设 (null hypothesis):该基因前后差异是否显著不同于0,双端检验。个体间表达值的差异的平均值。配对t-test的方差来源于配对样品。这与标准t-test不同,因此只要配对样品的表达是相关的 ,配对t检验就有更高的统计检出力 (https://en.wikipedia.org/wiki/Paired_difference_test)。
处理后数据:
要用P-value(或者用校正后的p-value:FDR)和log2 fold change来画火山图
FDR:在差异表达分析过程中,采用统计学方法对原有假设检验得到的p值进行校正,并最终采用校正后的p值,即FDR(False Discovery Rate)。 FC(Fold Change):是两样品(组)间基因表达水平的比值,是表示差异倍数的变量。一般差异表达分析中会同时控制这两个参数来筛选显著差异表达基因,如取FDR<0.05和FC>=2。