(全文约6600字)
1. 富集分析
1.1. 富集分析概念
- 富集分析
富集分析,本质上是对数据的分布检验,如果分布集中在某个区域,则认为富集。
常用的分布检验方法有卡方检验、Fisher精确检验以及KS检验等方法。
- 生物信息学领域的富集分析
在 背景基因集(N) 下获得 一组特定基因集(S) ,S可能是基因列表,表达图谱,基因芯片等形式。在预先构建好基因注释数据库(例如GO,KEGG等)已对背景基因集(N)根据生物功能或过程进行分类的前提下,通过统计学算法找出有那些显著区别于背景基因集(N)的类别(生物组成/功能/过程),或者找出这组特定基因集间在生物组成/功能/过程的共性,经过聚类后去除冗余得到基因富集结果的过程,即为富集分析。
- 常用数据
- 其中,背景基因集(N) 常常是一个物种的基因组注释基因总和。
- 一组特定基因集(S) 常常是差异表达基因集(differentially expressed genes, DEGs)。
- 预先构建好基因注释数据库常用GO或KEGG数据库。
- 常见的统计学算法包括ORA,FCS,PT,NT四种。
- 实际应用
通常会使用其他分析的结果作为特定基因集(S),做基因富集分析来查看这些基因集是否主要集中在某些类别,这些类别代表的功能是否与表型或者进化事件有关联。比如:
- 比较转录组分析得到的差异表达基因集;
- 比较基因组分析中得到的某物种特有的基因集;
- 基因家族收缩扩张分析得到的基因组中显著扩张/收缩的基因集;
- 基因组共线性分析中在全基因组复制事件附近的Ks值的基因集等各种分析得到的基因集;
1.2. 富集分析的算法
富集分析算法经过发展,常见的有四类:
Figure 1. 富集分析四类算法
图片来源:paper:Progress in Gene Functional Enrichment Analysis
1.2.1. 过表达分析(Over Representation Analysis, ORA)
- 过表达分析(ORA)概念
过表达分析(ORA)是对背景基因集(N)和特定基因集(S)按照已知的基因功能或通路等分组,并鉴定特定基因集(S)在哪些组包含比背景基因集(N)比例更多的基因(过度表达,over-represented,即富集enriched)或更少的基因(表达不足,under-represented)的一种统计学方法。
ORA是出现最早,最常用,有完善的统计学理论基础的方法。ORA重点在于通过基因集组成的比例来判断富集程度。
- 过表达分析的分布检验
ORA类方法用的是离散分布的检验(Fisher精确检验,依据超几何分布的原理)。
超几何分布有很多资料可参考,比如:https://www.jianshu.com/p/13f46bebebd4
- 过表达分析(ORA)的局限性
- ORA使用的统计方法(例如超几何分布,二项分布,卡方分布)只考虑差异基因数量,忽略了差异程度(不同表达水平),,需要人为设置阈值,没有一个设置规定,阈值设置有主观性。
- 通过一刀切的人为规定的阈值,找出差异最显著的单个基因,而忽略其他基因,比如差异小但变化方向一致的基因集,往往后者比前者更重要。
- 利用的统计学假设每个基因相互独立,但是就生物体本身而言,忽略了基因间内部的复杂的相互作用,并且每个基因在不同的生物学过程中发挥的作用大小不一样,同等看待结果可能会不准确。
- 假设每条通路都独立其他通路。
- 过表达分析(ORA)的实际操作
需要四组数据:
- 背景基因集(N):常常是一个物种的基因组注释基因总和
- 特定基因集(S):常常是差异表达基因集(differentially expressed genes, DEGs)
- 背景基因集的分类信息:常常通过注释数据库(GO,KEGG等)和背景基因集获得
- 特定基因集的分类信息:常常通过注释数据库(GO,KEGG等)和特定基因集获得
通过四组数据获得基因数量的2×2列联表,再利用fisher精确检验或超几何分布得到p值。认为设置一个显著性阈值,高于阈值的即为富集基因。
1.2.2. 功能分类打分(Functional Class Scoring,FCS)
1.2.2.1. 功能分类打分(FCS)
- 功能分类打分(FCS)概念和改进
功能分类打分(FCS)与ORA相比进行了基本假设的改变,除了考虑单个基因的显著变化外,还考虑微效基因的叠加效果。
代表是基因集富集分析(Gene Set Enrichment Analysis, GSEA)
- FCS分析的三个步骤
- 计算单个基因表达水平的统计值,采用如衡量差异基因的ANOVA、Q-statistic、t检验、Z-score、信噪比,进行打分或排序,或者直接使用排序好的基因表达谱
- 同一通路上所有基因的表达水平统计值进行整合,汇集成单个通路水平的分数或统计值,采用基因水平统计的和、均值或中位数,Wilcoxon rank sum, Maxmean statistic, Kolmogorov-Smirnov statistic
- 对通路水平的显著性进行评估:利用重抽样(bootstrap)的统计学