TCGA 数据分析实战 —— 富集分析

TCGA 数据分析实战 —— 富集分析

前言

通常,在识别完了差异基因之后,都会对差异基因进行功能富集,来获取差异基因参与的潜在生物学功能通路或生物学进程,有助于理解基因之间的作用关系以及发现基因在癌症发生发展过程中发挥的作用。

通路,通常是一些已知的功能相关的基因集合,而我们常说的基因集合,一般是忽略了基因之间互作关系的通路。

最常见的通路富集,是使用 GOKEGG 数据库中预定义的生物学通路。

Gene Ontology (GO)

Gene Ontology(基因本体)定义了用于描述基因功能的类,以及这些类之间的结构关系,主要可以分为三类:

  • Molecular Function(MF):分子功能,基因产物的生物学活性,如催化或结合等
  • Cellular Component(CC):细胞组分,即基因产物发挥作用的地方,如内质网、高尔基体等
  • Biological Process(BP):由分子功能组成的一系列反应过程。

KEGG

KEGG 是系统分析基因功能和基因组信息的数据框,是一个整合了基因组、生物学通路、疾病、药物以及生物化学物质等信息的数据库。

KEGG 通路由一系列经手工绘制而成的通路图构成,每张通路图均包含分子之间相互作用和反应的网络,旨在将基因组中的基因与基因产物(主要是蛋白质)联系起来,记录了细胞中分子之间的相互作用网络以及具体生物所特有的变化形式。

这些通路主要分为 7 大类:

  • 新陈代谢(Metabolism)
  • 遗传信息处理(Genetic Information Processing)
  • 环境信息处理(Environmental Information Processing)
  • 细胞过程(Cellular Processes)
  • 生物系统(Organismal Systems)
  • 人类疾病(Human Diseases)
  • 药物开发(drug development)

其他数据库

当然,除了我们最常用的 GOKEGG,还有一些其他数据库定义的基因集,例如:

  • Molecular Signatures Database (MSigDb)
  • Reactome
  • Disease Ontology (DO)
  • Disease Gene Network (DisGeNET)

富集分析方法

富集分析方法主要可以分为四类:

过表达分析

通常是检验差异基因是否显著集中在预先定义的基因集。

使用累积超几何或 Fisher 精确检验
p = 1 − ∑ i = 0 k − 1 ( M i ) ( N − M n − i ) ( N n ) p = 1 - \displaystyle\sum_{i = 0}^{k-1}\frac{ {M \choose i}{ {N-M} \choose {n-i}}} { {N \choose n}} p=1i=0k1(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

名本无名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值