上一期中给大家介绍了拟时序分析的意义及具体的分析过程,本期继续给大家带来转录组个性化分析——GSEA。废话不多说,干货直接奉上!
1 GSEA基本概念
基因集富集分析(Gene Set Enrichment Analysis,GSEA):用一个预先定义的基因集中的基因来评估在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。
2 GSEA原理
(1) 背景基因排序:将全部基因按照某种指标(差异分析p值,表型相关性,表达量等)进行排序,比如log2FC排序。
(2) 目标基因富集:将某个特定类型的基因在排序表中标出,目标基因可以是某个通路或GO terms的基因等。
(3) 计算富集分数:使用加权法,计算ES值变化。对位于中部(与性状相关性低)的部分采用较小的权值,所以越集中在两端,与表型的相关性越高。ES曲线最大值为富集分数(Enrichment Score)。
(4) Permutation test:对基因集的ES值进行显著性检验及多重假设检验,从而计算出显著富集的基因集。
3 GSEA分析的作用
GSEA和常规的GO、KEGG的差异在于,GSEA使用的是基因集,传统的富集分析不需要考虑基因表达量的变化趋势,其算法的核心只关注这些差异基因的分布是否和随机抽样得到的分布一致,即使后期在可视化时,我们在通路图上用不同颜色标记了上下调的基因,但是由于没有采用有效的统计学手段去分析这条通路下所有差异基因的总体变化趋势,这使得传统的富集分析结果无法回答如下问题:一个富集到的通路下,既有上调差