GSEA介绍--鹏鹏原创，必是精品

最新推荐文章于 2024-06-12 22:19:42 发布

wangyunpeng_bio

最新推荐文章于 2024-06-12 22:19:42 发布

阅读量1.8w

点赞数 2

分类专栏：分析流程文章标签： GSEA 生物信息结果解读原理

本文链接：https://blog.csdn.net/qq_29300341/article/details/52956052

版权

分析流程专栏收录该内容

16 篇文章 25 订阅

订阅专栏

引入：

Functional annotation enrichment analysis的缺点：

1、sampling issue

2、cut off bias 人为决定p值

3、lost mild changes 丢掉了改变小的那些基因

而GSEA避免了以上的缺点。

GSEA结果生成原理：

Phit就是只当前黑线对应的基因，处于你富集分析的gene set中，

Pmiss就是只当前黑线对应的基因，不处于你富集分析的gene set中。

先看图片下部的黑线，从左到右是Ranking排列；

再看上面绿色线，有两个力量，向上和向下的力量，

ES=Max(Phit -Pmiss ),所以 Phit 就是向上的力量， Pmiss 就是向下的力量

Phit 计算：

NR 就是所有的genelist的p值的加总，就是所有黑线的p值加总，R可以想成一个p值或者t值。

某一个黑线对应的Phit =这条黑线前面对应的NR 加总÷ 所有的genelist的p值的加总。所以向上最多走到1

Pmiss 计算：

Pmiss 就是所有白色的部分均分1，所以向下最多走到1。

综上，就是说如果gene很集中，就会一开始冲得很快很高，导致ES很高。

PS： Phit 中分子有个p乘方，这个就是为了防止ES很高，却出现在正中间，这里的基因没有significant change，这样子没有研究的意思。

加了 p乘方可以给前面Ranking的加权，其 ES出现在图左边

统计模型的检验：

因为本身模型很复杂，所以生物学家选择了permutation，将数据集打乱，看看打乱后的ES值是不是比原来自己的分类高，如果比自己的分类高，就说明自己的分类一点都不值钱。通常选择permutation 1000次，然后出来一个正态分布，再看看自己的ES落在哪里，然后就可以根据正态分布的方法，计算出p值

GSEA把实验所得出的基因组样本表达文件分为两类，标记为1和2。根据表达值的相关系数和特征分类，（用某种标准）让基因进行排序。

首先从一个叫S的探针集序列开始，假定它是一类编码产生新陈代谢的通路基因集，被定位于相同的细胞生成位段，或者是说有相同GO分类。（译者注：GO是什么？维基百科。） GSEA的目的就在于判断S的成员是随机的分布于L（待测基因探针所排序列）上还是有序的分布于顶部与尾部。我们的预期目的是S探针集能在表型上揭示出后者的分布方式。

下面是具体的三个重要步骤：

步骤1：计算富集积分（Enrichment Score，ES）

我们计算出一个富集积分值（ES），其为S的基因超表达在整个L序列的头部和尾部的多少。

积分值的计算是从L序列的头部开始往尾部走，每当遇到一个基因是在S上就加分，没有则减分。加分的分值大小根据基因表型相关系数大小。富集分值是从没有遇到的时候开始计算直到最大值误差值；而且它还与K-S test统计加权值有关。

步骤2：估计ES的显著程度

我们估计统计学上有意义部分的ES值（名义上的P值），是通过一个经验基础表型方法——置换检验，保存基因表达数据的结构的复杂相关系数。明确地，我们置换不同表型标签下的数据，并且再一次计算ES值，使之形成一个新的ES分布（假分布）。从经验上说，交换之后，ES的P值相对于新的ES值（统计分布）来说若是显著的变化，则有理由说明此基因集是有一定的生物学意义的。

GSEA结果图解：

Gene和NoGene分别表示基因敲除前后的两个样本类型（phenotype）

下图显示，与敲除基因前相比，敲除后的样本，4/5的gene set是表达量下调，1/5的gene set是表达量上调

本图中，就是说领头亚基的这些基因，富集在RNA-seq数据的前端（高表达端）

如果，这张Enrichment图是ClassA的（此处ClassA为Gene敲除基因前，ClassB为NoGene敲除基因后）

那么，说明领头亚集的这些基因富集在ClassA的RNA-seq的高表达区域，

类似于下图中的Gene Set2 enriched in Class A

领头亚集( leading edge subset) 中的基因是指对 ES 值贡献最大的基因集合。

当ES 为正值时，领头亚集位于ES 值对应排序序列之前，反之，则位于ES 值对应排序序列之后。

显然，领头亚集的出现说明一方面这些基因在通路中有富集，非散在分布，另一方面，说明这些基因在通路中有共同的表达趋势。显然，在ES 图中出现领头亚集的形状的，表明这个功能基因集在定义的实验条件下具有更显著的生物学意义。

wangyunpeng_bio

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
GSEA介绍--鹏鹏原创，必是精品

引入：Functional annotation enrichment analysis的缺点：1、sampling issue2、cut off bias 人为决定p值3、lost mild changes 丢掉了改变小的那些基因而GSEA避免了以上的缺点。GSEA结果生成原理：Phit就是只当前黑线对应的基因，处于你富集分析的gene set中，Pmiss就是只当前黑线对应的基因，不处于你富集...
复制链接

扫一扫

专栏目录