TCGA 数据分析实战 —— 富集分析
文章目录
前言
通常,在识别完了差异基因之后,都会对差异基因进行功能富集,来获取差异基因参与的潜在生物学功能通路或生物学进程,有助于理解基因之间的作用关系以及发现基因在癌症发生发展过程中发挥的作用。
通路,通常是一些已知的功能相关的基因集合,而我们常说的基因集合,一般是忽略了基因之间互作关系的通路。
最常见的通路富集,是使用 GO
和 KEGG
数据库中预定义的生物学通路。
Gene Ontology (GO)
Gene Ontology
(基因本体)定义了用于描述基因功能的类,以及这些类之间的结构关系,主要可以分为三类:
Molecular Function(MF)
:分子功能,基因产物的生物学活性,如催化或结合等Cellular Component(CC)
:细胞组分,即基因产物发挥作用的地方,如内质网、高尔基体等Biological Process(BP)
:由分子功能组成的一系列反应过程。
KEGG
KEGG
是系统分析基因功能和基因组信息的数据框,是一个整合了基因组、生物学通路、疾病、药物以及生物化学物质等信息的数据库。
KEGG
通路由一系列经手工绘制而成的通路图构成,每张通路图均包含分子之间相互作用和反应的网络,旨在将基因组中的基因与基因产物(主要是蛋白质)联系起来,记录了细胞中分子之间的相互作用网络以及具体生物所特有的变化形式。
这些通路主要分为 7
大类:
- 新陈代谢(Metabolism)
- 遗传信息处理(Genetic Information Processing)
- 环境信息处理(Environmental Information Processing)
- 细胞过程(Cellular Processes)
- 生物系统(Organismal Systems)
- 人类疾病(Human Diseases)
- 药物开发(drug development)
其他数据库
当然,除了我们最常用的 GO
和 KEGG
,还有一些其他数据库定义的基因集,例如:
Molecular Signatures Database
(MSigDb
)Reactome
Disease Ontology
(DO
)Disease Gene Network
(DisGeNET
)
富集分析方法
富集分析方法主要可以分为四类:
过表达分析
通常是检验差异基因是否显著集中在预先定义的基因集。
使用累积超几何或 Fisher
精确检验
p = 1 − ∑ i = 0 k − 1 ( M i ) ( N − M n − i ) ( N n ) p = 1 - \displaystyle\sum_{i = 0}^{k-1}\frac{
{M \choose i}{
{N-M} \choose {n-i}}} {
{N \choose n}} p=1−i=0∑k−1(