富集分析是指与所有鉴定到的目标代谢物、蛋白质、基因背景相比,差异代谢物、蛋白质、基因中显著富集到的功能条目,从而给出差异代谢物、蛋白质、基因与哪些生物学功能显著相关。富集气泡图是其中一种展现形式,适用于各种功能性数据库,常用的有GO数据库、KEGG数据库、COG/KOG数据库等。可从不同的方面了解代谢物、蛋白质、基因参与的生理功能、结构特征、亚细胞位置等,进而揭示代谢物、蛋白质、基因在各个生命活动中的生物学意义。
基因富集分析的一般步骤包括:
1、选择基因集:根据研究问题或兴趣,选择一组基因作为分析的目标基因集,比如在某个生物学过程中参与的基因、某个疾病相关的基因等。
2、选择参考基因组:选择一个适当的参考基因组,通常是整个基因组或特定的基因组部分。
3、统计分析:使用合适的统计方法(比如超几何分布、Fisher's 精确检验等)来确定目标基因集中的基因是否在参考基因组中出现的频率高于预期。
4、功能注释:对于富集的基因集,进行功能注释和生物学解释,通常使用基因本体(Gene Ontology)或通路数据库(Pathway databases)等工具来了解这些基因在生物学上的功能和相互作用。
5、结果解释:根据统计显著性和生物学含义来解释结果,确定在富集分析中发现的重要生物学过程、通路或功能。
KEGG/GO富集分析在方法学上均属于过表达分析(Over Representation Analysis,ORA),是一种广泛使用的分析方法,用于确定已知的生物功能或过程是否在实验获得的差异表达基因(Differentially Expressed Genes, DEG)列表中显著地过表达(或者富集)。
富集分析结果图
最常见的气泡图
1
相比于传统的散点图的X、Y轴,气泡图多了一个维度:以气泡大小来显示富集的基因数量,并且颜色更加丰富进一步增加了结果图的信息密度和美观程度。
其中纵坐标代表细胞的生物学功能(诸如生物过程BP,分子功能MF,细胞组分CC)或者各分子发挥功能的通路(如代谢途径,致癌途径等等)。横坐标代表富集评分,表示基因集合在特定功能或通路中的富集程度,得分越高表示富集程度越高。也有很多图横坐标是GeneRatio,表示通路下基因占基因总数的比例。气泡大小表示基因数量,气泡越大基因个数越多
然后是GO和弦图
2
弦图以圆形布局展示多个对象间的关系,通过将不同的GO term(如生物过程、细胞组分、分子功能)与参与的基因或蛋白连接起来,直观地展示这些对象之间的相互作用和关联。
内圈连线表示基因和生物过程之间的关联,相同颜色的连线,表示这几种基因富集到该term上,外圈标注参与生物过程的基因,并按照变化倍数对上调/下调基因进行了排序。右下图注表示显著富集的GO term的名称和颜色标识
最后一种:GSEA分析
3
GSEA(基因集富集分析)主要用于评估基因集中基因在与表型相关度排序的基因表中的分布趋势,从而判断这些基因集对特定表型的贡献。
图中红色区域表示在上调的基因,蓝色区域表示表达下调的基因,反映了基因在条件下的表达变化趋势。
黑色线条展示基因集中每个基因出现在基因排序列表中的位置,每一根线条代表基因集中的一个分子,可以看出那些基因再富集评分中贡献最大。
富集曲线表示ES评分的过程,绿色曲线的峰值表示基因集的最大富集程度。峰值为正表示富集通路上调,峰值为负表示富集通路下调
每个基因的排名指标得分,表示基因与表型的相关程度。零交叉点是从正变为负的位置,帮助区分正/负相关的基因。