KEGG、GO 各种富集分析结果一文看懂

富集分析是指与所有鉴定到的目标代谢物、蛋白质、基因背景相比,差异代谢物、蛋白质、基因中显著富集到的功能条目,从而给出差异代谢物、蛋白质、基因与哪些生物学功能显著相关。富集气泡图是其中一种展现形式,适用于各种功能性数据库,常用的有GO数据库、KEGG数据库、COG/KOG数据库等。可从不同的方面了解代谢物、蛋白质、基因参与的生理功能、结构特征、亚细胞位置等,进而揭示代谢物、蛋白质、基因在各个生命活动中的生物学意义。

基因富集分析的一般步骤包括:

1、选择基因集根据研究问题或兴趣,选择一组基因作为分析的目标基因集,比如在某个生物学过程中参与的基因、某个疾病相关的基因等。

2、选择参考基因组选择一个适当的参考基因组,通常是整个基因组或特定的基因组部分。

3、统计分析使用合适的统计方法(比如超几何分布、Fisher's 精确检验等)来确定目标基因集中的基因是否在参考基因组中出现的频率高于预期。

4、功能注释对于富集的基因集,进行功能注释和生物学解释,通常使用基因本体(Gene Ontology)或通路数据库(Pathway databases)等工具来了解这些基因在生物学上的功能和相互作用。

5、结果解释根据统计显著性和生物学含义来解释结果,确定在富集分析中发现的重要生物学过程、通路或功能。

KEGG/GO富集分析在方法学上均属于过表达分析(Over Representation AnalysisORA,是一种广泛使用的分析方法,用于确定已知的生物功能或过程是否在实验获得的差异表达基因(Differentially Expressed Genes, DEG)列表中显著地过表达(或者富集)

富集分析结果图

最常见的气泡图

1

相比于传统的散点图的X、Y轴,气泡图多了一个维度:以气泡大小来显示富集的基因数量,并且颜色更加丰富进一步增加了结果图的信息密度和美观程度。

其中纵坐标代表细胞的生物学功能(诸如生物过程BP,分子功能MF,细胞组分CC)或者各分子发挥功能的通路(如代谢途径,致癌途径等等)。横坐标代表富集评分,表示基因集合在特定功能或通路中的富集程度,得分越高表示富集程度越高。也有很多图横坐标是GeneRatio,表示通路下基因占基因总数的比例。气泡大小表示基因数量,气泡越大基因个数越多

然后是GO和弦图

2

弦图以圆形布局展示多个对象间的关系,通过将不同的GO term(如生物过程、细胞组分、分子功能)与参与的基因或蛋白连接起来,直观地展示这些对象之间的相互作用和关联。

内圈连线表示基因和生物过程之间的关联,相同颜色的连线,表示这几种基因富集到该term上,外圈标注参与生物过程的基因,并按照变化倍数对上调/下调基因进行了排序。右下图注表示显著富集的GO term的名称和颜色标识

最后一种:GSEA分析

3

GSEA(基因集富集分析)主要用于评估基因集中基因在与表型相关度排序的基因表中的分布趋势,从而判断这些基因集对特定表型的贡献。

图中红色区域表示在上调的基因,蓝色区域表示表达下调的基因,反映了基因在条件下的表达变化趋势。

黑色线条展示基因集中每个基因出现在基因排序列表中的位置,每一根线条代表基因集中的一个分子,可以看出那些基因再富集评分中贡献最大。

富集曲线表示ES评分的过程,绿色曲线的峰值表示基因集的最大富集程度。峰值为正表示富集通路上调,峰值为负表示富集通路下调

每个基因的排名指标得分,表示基因与表型的相关程度。零交叉点是从正变为负的位置,帮助区分正/负相关的基因。

go富集分析kegg富集分析是生物信息学中常用的两种功能注释方法,用于解释大规模基因表达数据中的生物学意义和功能。这些分析通常用于分析基因列表中富集的功能类别或代谢通路。 在go富集分析中,通常使用Gene Ontology(GO)数据库来标注基因的功能、细胞组分和生物过程。分析过程包括将基因列表与注释数据库中的功能类别进行比较,并计算富集程度。富集程度由P值来衡量,P值越小表示富集程度越高,代表该功能类别在基因列表中出现的概率较小。 解读go富集分析结果时,需要关注具有显著富集的功能类别,这些功能类别指示了基因列表中的生物学过程和功能。此外,还需要考虑功能类别的层级关系,例如,富集于更高级别的功能类别可能表示更广泛的生物学过程。结合基因列表的背景信息和研究问题的特点,进一步挖掘和解释功能类别的生物学意义。 对于kegg富集分析,是基于KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库中的代谢通路信息进行注释和富集分析。富集程度也是通过计算P值来量化,P值越小表示富集程度越高,代表该代谢通路在基因列表中出现的概率较小。 解读kegg富集分析结果时,可关注具有显著富集的代谢通路,这些通路是基因列表中可能参与的生物化学反应网络。进一步分析这些富集的代谢通路可以帮助理解基因表达数据中的代谢变化和生物过程的调控机制。 综上所述,gokegg富集分析结果的解读需要结合P值和功能/通路的生物学意义,通过综合分析得出准确的结论。这两种方法在生物信息学研究中具有重要的应用价值,可以帮助揭示基因表达数据中的生物学过程、功能和代谢调控机制。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值