GSEA和KEGG以及GO的区别

最新推荐文章于 2025-04-22 13:53:21 发布

jiaven_77

最新推荐文章于 2025-04-22 13:53:21 发布

阅读量3.2k

点赞数 12

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72160465/article/details/137225608

版权

本文讨论了在基因表达差异研究中，KEGG通路富集分析和GO功能富集分析遇到的问题，特别是当上调和下调基因同时存在于同一通路时。GSEA基因集富集分析被引入，它考虑了基因上调/下调的详细信息，通过EnrichmentScore评估基因集在处理组中的显著性。文中还介绍了GSEA的输入、排序过程和关键指标如ES、NOMp-val和FDRq-val的解释。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

表达差异矩阵

当产生的表达差异矩阵后，做后续的分析：

1.KEGG是通路富集分析

2.GO是功能富集分析，包括BP分析，CC分析以及MF分析。GO数据库，全称是Gene Ontology(基因本体)，他们把基因的功能分成了三个部分分别是：细胞组分（cellular component, CC）、分子功能（molecular function, MF）、生物过程（biological process, BP）。

传统KEGG（通路富集分析）和GO（功能富集）分析时，如果富集到的同一通路下，既有上调差异基因，也有下调差异基因，那么这条通路总体的表现形式究竟是怎样？是被抑制还是激活？或者更直观点说，这条通路下的基因表达水平在实验处理后是上升了呢，还是下降了呢?

传统的富集分析，针对总体的差异基因，不区分哪些差异基因是上调还是下调。

GSEA

3.GSEA分析是 基因集富集分析，由Broad Institute研究所提出的一种富集方法。对应的基因集数据库MSigdb。

GSEA的输入是一个基因表达量矩阵，其中的样本分成了A和B两组，首先对所有基因进行排序，简单理解就是根据处理后的差异倍数值进行从大到小排序, 用来表示基因在两组间的表达量变化趋势。排序之后的基因列表其顶部可看做是上调的差异基因，其底部是下调的差异基因。

结果分析：

“MUT vs WT”的差异gene集（MUT为实验组，WT为对照组）

GS：基因集（通路）的名字。

SIZE：代表该基因集（通路）下的基因总数。

ES：代表Enrichment score，NES代表归一化后的Enrichment score。

NOM p-val：代表p值，表征富集结果的可信度。

FDR q-val`代表q值, 是多重假设检验矫正后的p值，注意GSEA采用pvalue < 5%, qvalue < 25% 对结果进行过滤。

对于某个基因集下（通路里）的每个基因给出了详细的统计信息，如下图

RANK IN GENE LIST：代表该基因在排序中的位置。

RANK METRIC SCORE：代表该基因排序量的值，即：处理后的foldchange值。

RUNNIG ES：代表累计的Enrichment score。

CORE ENRICHMENT：代表是否属于核心基因，即对该基因集的Enerchment score做出了主要贡献的基因。

上图表格中的数据对应下面这张图

图分为3部分，如下：

第一部分：最顶部的绿色折线为基因Enrichment Score的折线图。纵轴为对应的Running ES, 在折线图中有个峰值，该峰值就是这个基因集的Enrichemnt score，峰值之前的基因就是该基因集下的核心基因。横轴代表此基因集下的每个基因，对应第二部分类似条形码的竖线。

第二部分：类似条形码的部分，为Hits，每条竖线对应该基因集下的一个基因。

第三部分：为所有基因的rank值分布图，纵坐标为ranked list metric，即该基因排序量的值，可理解为“公式化处理后的foldchange值”。

参考：基因集富集分析（GSEA）简介 - 知乎 (zhihu.com)

博客等级

码龄3年

14
原创

113
点赞

131
收藏

66
粉丝

关注

私信

热门文章

最新评论

CUDA | RTX3070 | Pytorch 版本对应| 深度学习加速器
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
降维算法 | PCA | UMAP | t-SNE
CSDN-Ada助手: 恭喜您撰写了第11篇博客，内容涉及降维算法PCA、UMAP和t-SNE，这些算法在数据分析和可视化中非常重要。希望您能继续保持创作的热情和积极性，分享更多有趣的内容给读者。或许下一步可以深入探讨这些算法的应用场景和优缺点，让读者更全面地了解它们的特性。期待您的更多精彩作品！
UMAP的内置算法 | Nearest-Neighbor-Descent | K近邻图
CSDN-Ada助手: 恭喜用户写出了第12篇博客，内容围绕UMAP的内置算法展开，介绍了Nearest-Neighbor-Descent和K近邻图的相关知识。不断学习不断进步，真的很棒！或许下一步可以考虑深入探讨UMAP算法的应用场景或者与其他算法的比较分析，期待您更多精彩的内容呀！加油！
KNN和ANN的异同 |
CSDN-Ada助手: 恭喜您发布了第13篇博客，题为“KNN和ANN的异同 |”。您对KNN和ANN的比较分析十分有趣，让读者更加清晰地了解了它们的特点和应用场景。希望您能继续保持创作的热情和耐心，为读者带来更多有价值的内容。或许在未来的创作中，可以深入探讨KNN和ANN在实际项目中的应用案例，或者结合其他机器学习算法进行比较分析，为读者提供更全面的学习参考。期待您的下一篇作品！
国内chatGPT3.5升级到chatGPT4.0的教程 | 无visacard
jiaven_77: 我没有国外的信用卡，因此绝对不是信用卡支付。我有梯子，但是支付宝好像不需要梯子也可以支付。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。