前两天我们对GEO数据库来了一个大致的介绍。我们对于目标数据集,我们做的第一个事情就是差异分析,来寻找有差异的结果。所有的表达芯片做的差异表达分析都是基于limma的算法来的。我们今天介绍的这个GEO2R也只是把这个算法更加方便使用了而已。
PS:GEO2R只是适用于表达谱芯片。对于二代测序是不适用的,我们下面说到的数据类型都是表达谱芯片来进行阐述的。
1 所谓差异分析
我们在进行科学研究的时候,同样也是需要比较才能得到结果的。通常我们研究一个疾病的时候,其实都会有一个隐藏的目标伴随着来进行研究的。例如我们要研究TP53是否和胃癌的发生相关,那我们收集的数据除了胃癌患者当中的TP53的基因表达水平,也要收集正常对照人群的表达变化,通过两者的对比来确定TP53的表达变化是否和胃癌有关。
对于表达谱芯片而言,我们会得到上万的基因的表达量变化,但是这上万的基因不一定都参与疾病的发生。我们进行差异分析的目的也是要得到和疾病相关的那些变化基因。毕竟这些基因才是符合我们研究目的的。
2 GEO2R
GEO2R就是一个基于GEO数据库来对表达谱芯片进行差异分析的一个软件。我们在每个数据集的下面都可以看到这个软件的的入口。例如:GSE79973我们就可以在数据集的下面看到这个分析入口。