Enrichment analysis(富集分析)
Enrichment analysis(富集分析)是一种广泛应用于生物信息学研究的统计方法,主要用于检验一个基因集合中某些功能或特征的富集程度。以下是富集分析的详细解释:
- 定义与目的
富集分析的基本前提是,如果一个生物学过程在已知的研究中发生异常,则共同发挥功能的基因极可能被选择出来作为一个与这一过程相关的基因集合。富集分析用来解读一组基因背后所代表的生物学知识,揭示其在细胞内或细胞外扮演了什么样的角色。 - 分析类型
富集分析可以分为以下几种类型:
• 基因本体论富集分析(Gene Ontology Enrichment Analysis):检验基因集合中基因本体论(GO)条目的富集情况,有助于了解基因集合中的基因在生物学过程、分子功能和细胞组成方面的共同特征。
• 通路富集分析(Pathway Enrichment Analysis):关注基因在代谢途径和信号传导通路中的作用,通过检测基因集合中通路的富集情况,研究者可以了解这些基因在生物体内的功能和调控机制。
• 基因集富集分析(Gene Set Enrichment Analysis,GSEA):检测一个基因集合(如差异表达基因)与某些生物学特征(如基因本体论、通路、疾病、表型等)之间的关联的方法。
• 蛋白质-蛋白质相互作用富集分析:关注蛋白质之间的相互作用,帮助研究者了解基因集合中蛋白质在细胞信号和代谢过程中的功能。
• 基因表达调控富集分析:关注转录因子、miRNA等调控因子对基因表达的调控作用。 - 统计方法
富集分析中常用的统计方法有累计超几何分布、Fisher精确检验等。由于在进行富集分析时通常需要同时进行大量检验(多重检验),所以需要采用多重检验校正的方法对检验结果进行校正,常用的校正方法包括Bonferroni校正、Benjamini false discovery rate校正。 - 应用
富集分析的作用在于对得到的功能节点加以过滤和筛选,以便获得更有意义的功能信息。例如,通过差异表达基因集、共表达基因模块、蛋白质复合物基因簇等,寻找这些感兴趣基因集显著富集的GO节点或者KEGG通路,有助于进一步深入细致的实验研究。 - 工具
利用富集分析方法,对基因注释数据库做生物信息学研究产生了很多富集分析工具,例如DAVID在线分析工具、R clusterProfiler包、Metascape等,这些工具对促进基因功能分析以及研究高通量测序技术产生的生物学知识数据发挥了关键作用。 - GSEA详细介绍
GSEA是一种计算方法,用来确定一组先验定义的基因集是否在两种生物状态之间显示出统计学上显著的、一致的差异。GSEA分析的基本原理是使用预定义的基因集,将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。
希望这些信息能帮助您更好地理解富集分析。