常见的基因功能富集分析方法可以认为分两代。
(1)第一代:基于目标基因集预筛选的功能富集分析方法
基本步骤包括两步:
(a)从背景基因集合,按照一定固定阈值(例如,是否差异显著)筛选目标基因集。这属于一个二分类的策略,例如将基因分为差异表达与无差异表达的。
(b)通过一些统计方法(例如,超几何检验)证明目标基因集(例如差异表达基因)的基因更多集中在某些通路中。
第一代富集分析方法,简单易懂,所以我们常见的结题报告基本上都使用这类方法。但第一代富集分析方法最大的不足就是:筛选目标基因集的标准(例如差异分析中的差异倍数大于2 & FDR <0.05)会直接影响富集分析的结果,尤其当差异基因很少的时候,可能无法富集到任何通路。
(2)第二代:基于所有基因评分或排序的功能富集分析方法
第二代功能富集分析方法则可以很好弥补第一代方法的不足,最有代表性的方法就是GSEA(Gene Set Enrichment Analysis)的方法。以GSEA为例,分析也可以分为两步:
(a)利用某个指标(例如差异倍数)对所有基因进行排序(而不是用固定阈值筛选)。
(b)判断某个通路的基因在所有的排序中是否更为靠前(或靠后),来证明实验处理会该通路产生更显著的影响。
GSEA法因为不需要对数据进行预筛选,所以很好地解决了一代方法的不足,对通路富集的检测能力更加敏感(PS:在基迪奥最新版本的转录组结题报告中也加入了GSEA富集分析的内容)。
想了解