GSEA和KEGG以及GO的区别

本文讨论了在基因表达差异研究中,KEGG通路富集分析和GO功能富集分析遇到的问题,特别是当上调和下调基因同时存在于同一通路时。GSEA基因集富集分析被引入,它考虑了基因上调/下调的详细信息,通过EnrichmentScore评估基因集在处理组中的显著性。文中还介绍了GSEA的输入、排序过程和关键指标如ES、NOMp-val和FDRq-val的解释。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

表达差异矩阵

当产生的表达差异矩阵后,做后续的分析:

1.KEGG是通路富集分析

2.GO是功能富集分析,包括BP分析,CC分析以及MF分析。GO数据库,全称是Gene Ontology(基因本体),他们把基因的功能分成了三个部分分别是:细胞组分(cellular component, CC)、分子功能(molecular function, MF)生物过程(biological process, BP)

传统KEGG(通路富集分析)和GO(功能富集)分析时,如果富集到的同一通路下,既有上调差异基因,也有下调差异基因,那么这条通路总体的表现形式究竟是怎样?是被抑制还是激活?或者更直观点说,这条通路下的基因表达水平在实验处理后是上升了呢,还是下降了呢?

传统的富集分析,针对总体的差异基因,不区分哪些差异基因是上调还是下调。

GSEA

3.GSEA分析是 基因集富集分析,由Broad Institute研究所提出的一种富集方法。对应的基因集数据库MSigdb。

GSEA的输入是一个基因表达量矩阵,其中的样本分成了A和B两组,首先对所有基因进行排序,简单理解就是根据处理后的差异倍数值进行从大到小排序, 用来表示基因在两组间的表达量变化趋势。排序之后的基因列表其顶部可看做是上调的差异基因,其底部是下调的差异基因。

结果分析:

“MUT vs WT”的差异gene集(MUT为实验组,WT为对照组)

GS:基因集(通路)的名字。

SIZE:代表该基因集(通路)下的基因总数。

ES:代表Enrichment score,NES代表归一化后的Enrichment score。

NOM p-val:代表p值,表征富集结果的可信度。

FDR q-val`代表q值, 是多重假设检验矫正后的p值,注意GSEA采用pvalue < 5%, qvalue < 25% 对结果进行过滤。

对于某个基因集下(通路里)的每个基因给出了详细的统计信息,如下图

RANK IN GENE LIST:代表该基因在排序中的位置。

RANK METRIC SCORE:代表该基因排序量的值,即:处理后的foldchange值。

RUNNIG ES:代表累计的Enrichment score。

CORE ENRICHMENT:代表是否属于核心基因,即对该基因集的Enerchment score做出了主要贡献的基因。

上图表格中的数据对应下面这张图

图分为3部分,如下:


第一部分:最顶部的绿色折线为基因Enrichment Score的折线图。纵轴为对应的Running ES, 在折线图中有个峰值,该峰值就是这个基因集的Enrichemnt score,峰值之前的基因就是该基因集下的核心基因。横轴代表此基因集下的每个基因,对应第二部分类似条形码的竖线。


第二部分:类似条形码的部分,为Hits,每条竖线对应该基因集下的一个基因。


第三部分:为所有基因的rank值分布图,纵坐标为ranked list metric,即该基因排序量的值,可理解为“公式化处理后的foldchange值”。

参考:基因集富集分析(GSEA)简介 - 知乎 (zhihu.com)

GSEA(基因集富集分析)是一种常用的生物信息学分析方法,用于对基因表达数据进行高级功能通路分析。对于标准化后的数据集进行KEGG(Kyoto Encyclopedia of Genes and Genomes)GO(Gene Ontology)分析,可以进一步理解基因在代谢途径代谢方式中的功能相互作用关系。 KEGG分析是通过对基因的富集显著性分析,找出某一特定代谢途径或功能模块中的关键基因集合。通过GSEA分析方法,我们可以将标准化后的数据集中的基因按照其表达水平有无进行排序,然后利用先验知识库(KEGG数据库)来计算在每个基因集中的基因上或下调的富集得分。这样,我们可以快速找到在代谢途径中显著富集的基因集合,从而识别出对该代谢途径有重要影响的基因。 GO分析是常用的基因功能注释分类系统,涵盖分子功能、细胞组分生物过程。KEGG类似,通过GSEA分析方法,我们可以将标准化后的数据集中的基因按照其表达水平进行排序,然后利用GO数据库来计算在每个基因集中的基因上或下调的富集得分。这样,我们可以快速找到在不同的GO功能分类中显著富集的基因集合,从而了解基因在不同功能生物过程中的作用。 综上所述,通过GSEA分析方法对标准化后的数据集进行KEGGGO分析,可以帮助我们深入探索代谢途径代谢方式中的关键基因及其相互作用关系。这种方法有效地扩展了我们对基因在生物学过程中的功能相互关系的理解,为我们进一步研究代谢相关疾病的发生机制提供了有力的支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值