富集分析

最新推荐文章于 2024-07-03 10:47:26 发布

FarmerJohn

最新推荐文章于 2024-07-03 10:47:26 发布

阅读量1.7w

点赞数 3

分类专栏：生物信息学文章标签：富集分析

本文链接：https://blog.csdn.net/fjsd155/article/details/103064166

版权

生物信息学专栏收录该内容

16 篇文章 53 订阅

订阅专栏

说到富集分析，做生信的童鞋立刻就会想到基于差异基因数目的普通富集分析、基于基因排名的GSEA这两大类功能富集分析方法。但这只是富集分析的两种常见形式，富集分析的概念要更广。基于差异基因数目这一类富集分析是最简单的富集方法，只关心基因集的富集比例，我们一般称为ORA（Over-Representation Analysis，过表达分析）；GSEA类方法更进一层，还关心基因集在打分排序中的分布情况，这类方法一般称为FCS（Functional Class Scoring，功能集打分）。我们经常使用富集分析的p值以及FDR值，判断是否富集显著。然而对应的统计量如何计算？富集分析能否在其他情形使用，如何使用？最简单的情形是，如何检验一个biomarker在某个模型中是显著富集的。本文将对此进行解析。

所谓富集分析，本质上就是对分布的检验，如果分布集中在某一个区域，则认为富集。比如正态分布就是一种富集在均值附近的分布。常用的分布检验方法有卡方检验、Fisher精确检验以及KS检验等方法。ORA类方法用的是离散分布的检验（Fisher精确检验，依据超几何分布的原理），网上有一些资料对此解释（浅探富集分析中的超几何分布），但笔者认为ORA类方法有个问题就是，同一个基因集里相反方向的差异基因该如何处理？首先需要明确的是，不同方向的差异基因应当分开进行富集分析。但是这样相当于把反方向的基因当成中性基因对待，实际上是否应当“抵消”处理呢？笔者倾向于是有必要“抵消校正”的，合理的传统富集分析，应当等价于将logFC值处理成1、0、-1（上调为1，下调为-1，中性为0），然后扔进GSEA；或者说，分布检验的时候，应当是三分布问题，而不是简单的二分布问题。当然也有人构建了补充变量，比如通过计算基因集内上调基因数和下调基因数的差值，构建新的统计量，与ORA的p值结合一起分析（GOplot的z-score）。个人认为，除了上述校正方法以外，还有一个思路就是反方向“稀疏分析”，就是说，一个基因集如果出现某个表型的显著富集，那么同时也要求其在相反表型中出现“显著稀疏”（也就是两个方向分开分析要同时具有显著性）。即使各种补充方法的提出，ORA类方法本身的弊病无法解决，将连续变量转成分类变量进行统计都是下下策（忽略了FC值和p值的连续性），统计效能势必大打折扣，关于ORA类方法，此处不作过多累述。本文重点关注连续分布的富集（GSEA）。

1- 统计学原理

1.1 Kolmogorov distribution

独立增量过程，指其增量是相互独立的。以下截图摘自百度百科：

从独立增量过程到Kolmogorov分布，再过渡到KS检验，需进一步补充（有空补充）。

1.2 Kolmogorov–Smirnov test

Kolmogorov–Smirnov检验（KS检验）的基本介绍，我再偷个懒，引用一个比较喜欢的讲解（Kolmogorov–Smirnov test）

KS检验临界值表：www.cust.edu.tw/mathmet/KS-critical.docx

KS检验的不错的介绍：KS-检验（Kolmogorov-Smirnov test） -- 检验数据是否符合某种分布

KS检验的应用：检验数据是否符合某种分布，如正态分布。

KS检验的优点：作为分布检验的方法（或者说拟合优度检验），该检验不依赖于要测试的累积分布函数，相比于卡方拟合检验（卡方检验需要50个以上的样本），不需要大量的样本。

KS检验的缺点：只适用于连续分布（只能用于连续或定量数据）；在分布中间敏感，在两端不够敏感；最大的局限在于整个分布需要完全确定，如果位置，形状等参数都是从数据中估计的，判定区间不再有效，因此这些参数一般只能通过模拟得到。

分布检验的比较：R语言 Shapiro-Wilk检验

不错的资料：

Kolmogorov-Smirnov Goodness-of-Fit Test

Kolmogorov-Smirnov检验

柯尔莫可洛夫-斯米洛夫检验

当数据服从正态分布时，KS检验比 t 检验效能低，但有的时候这种更严格也有好处。KS检验与 t 检验的对比：

因为样本的平均值和标准差非常相似，所以学生T检验最后给出了非常高的P值。KS测试却可以检测出方差。在这个案例中，KS测试发现了红色的分布中一点点的二项分布。

2- KS类富集分析的应用

GSEA采用了KS检验的思想，但是采用的是加权的近似KS检验方法。

GSEA的介绍可参考：一文掌握GSEA富集分析-最详细教程，还比较详细的。注意，GSEA还用了置换检验来评估结果的可靠性。GSEA的数学原理还需要好好读读原论文！比如如何加权，为何最后曲线能回到0值处等等。

特征在模型中的富集

可以直接借助GSEA软件计算富集程度，也可以使用原始的KS检验计算。

比如某个分类指标与模型的关系，可以看看某个类是否富集到模型得分的某一端（以模型得分对样本排序，原假设是该类别在排序后的分布中是均匀分布的）。

但连续性指标与模型的关系，如何计算富集程度呢？一篇cell的OCLR干性文献里竟然对连续变量也计算量NES，神奇。实际上，任何类型的指标都可以计算NES，只需要事先算出rank即可。

（本部分待继续完善）

3-基因集打分方法概述

基因集打分（signature score，geneset score 或 metagene score）、构建功能指数（signature index），是生信分析中常见的分析策略，是一种特殊的建模方法。大致来讲，基因集打分主要分为两大类：基于富集打分、基于权重打分。

基于富集打分

基因集内部基因无差别对待，是FCS富集分析的特点之一（指普遍无差别，注意不要和排名的“有差别”混淆理解，因为不同样本的排名顺序不同）。无差别对待有弊有利，优势在于打分建模不容易过拟合（比较稳定），劣势在于建模欠拟合（不同基因的影响力不同，应当有权重）。这类方法包括：ssGSEA、GSVA、combined-zscore、PLAGE等。

combined-zscore 比较简单，并采取了 t-score排名法逐步构建核心基因子集。这个方法忽略了基因集的“分布”特征，打分比较粗略（可参考：Inferring Pathway Activity toward Precise Disease Classification）。

ssGSEA就是将GSEA算法应用于单样本，巧妙而简单。

GSVA和ssGSEA类似，也是基于KS类随机游走算法，但富集得分统计方式有些区别。

PLAGE基于SVD，方法比较古老，笔者对此未曾研究。

基于权重打分

最大的难点在于，权重如何确定。基因集内的基因表达往往共线性，直接建模来获取权重系数，有些不妥。但也有一些技巧可以使用。比如单变量建模后所得系数构建signature权重矩阵，然后直接建模或相关系数法计算得分；比如直接计算每个基因与基因集之间的相关系数（即平均相关系数），作为权重；比如计算Mutual Information（MI），作为基因间的相关程度，然后迭代计算基因与基因集之间的MI，从而作为权重（可参考：Biomolecular Events in Cancer Revealed by Attractor Metagenes）。

另外，还有解卷积类的方法也常用来构建权重矩阵（免疫浸润中经常使用这类方法），这部分内容本文不作介绍，可参考：转录组分析中的免疫浸润的评估方法