GSEA软件基因富集分析

最新推荐文章于 2024-09-11 08:11:39 发布

Eric's blog

最新推荐文章于 2024-09-11 08:11:39 发布

阅读量4.7k

点赞数

文章标签：数据挖掘

本文链接：https://blog.csdn.net/Eric_blog/article/details/104526510

版权

快速目录链接

GSEA分析简介
分析步骤

GSEA分析简介

基因集富集分析（GSEA）是一种计算方法，用于确定一组定义好的基因是否在两种生物状态（如表型）之间显示出统计上显著的一致性差异。

分析步骤

首先在官网下载软件：软件下载

1、准备数据

使用GSEA时，可以提供四个数据文件：表达数据集文件、表型标签文件、基因集文件和芯片注释文件。下面我们逐个来看

（1）表达数据文件

包含特征（基因或探针）、样本以及每个样本中每个特征的表达值。表达数据可以来自任何来源（Affymetrix、Stanford cDNA等）。格式可以是res, gct, pcl,或 txt。
gct格式：
Alt
第一行的数值是固定的。第二行的第一个数值19668是表达数据中的基因数或者探针数；第二个数值是样本数。

txt格式：
Alt
第一行包括标签名和样本的标识，Description这一列如果没有要填的内容用NA代替。
文件的其余部分包含每个基因的数据。每行包含基因名、基因描述和数据集中每个样本的表达值。基因名称和描述可以包含空格，因为字段由制表符tab分隔。
选择以制表符分格的txt 作为保存文件类型。

（2）表型标签文件

CLS：分类（例如肿瘤与正常）类文件格式（.cls）

CLS文件格式定义表型（类或模板）标签，并将表达式数据中的每个样本与标签相关联。CLS文件格式使用空格或制表符分隔字段。CLS文件格式根据定义的是分类表型还是连续表型而有所不同。分类标签定义了离散的表型；例如，正常与肿瘤。对于分类标签，CLS文件格式的组织如下：
Alt
CLS文件的第一行包含表示样本数和类数。样本数应与相关RES或GCT数据文件中的样本数相对应。CLS文件中的第二行包含每个类的用户可见名称。这些是出现在分析报告中的类名。该行应以#开头，后跟空格。第三行包含每个样本的类标签。类标签可以是类名、数字或文本字符串。使用的第一个标签分配给第二行中命名类型的第一类；第二个标签分配给第二行命名的第二类；依此类推。（注意：标签的顺序决定类名和类标签的关联，即使类标签与类名相同。）此行指定的类标签总数应与第一行指定的样本数相同。此行指定的标签种类数应与第一行指定的类数相同。格式如下：
(sample 1 class) (space) (sample 2 class) (space) … (sample N class)
例如我整理的文件格式：
标签文件

2、数据导入

Alt
弹出确认窗口，无误后点击确认。

3、参数设置及运行

在这里插入图片描述

点击RUN后，状态栏显示running，如果报错，按照相应的错误提示进行调整和修改。

4、结果分析

如果样品比较多，Permumation type 选择了phenotype ，则设定FDR<0.25为可信的富集最有可能获得有功能研究价值的结果，如果样品数量较少，选择gene_set，那么标准要更加严格，FDR<0.05。
对于分析结果，我们一般认为NES的绝对值大于1，NOM p value <0.05, FDR q value <0.25的通路是显著富集的。

参考：
[1]：https://mp.weixin.qq.com/s/5ZEuII6ccJZZFdCsj6f3kA