GSEA软件基因富集分析

GSEA分析简介

基因集富集分析(GSEA)是一种计算方法,用于确定一组定义好的基因是否在两种生物状态(如表型)之间显示出统计上显著的一致性差异。

分析步骤

首先在官网下载软件:软件下载

1、准备数据

使用GSEA时,可以提供四个数据文件:表达数据集文件表型标签文件基因集文件芯片注释文件。下面我们逐个来看

(1)表达数据文件

包含特征(基因或探针)、样本以及每个样本中每个特征的表达值。表达数据可以来自任何来源(Affymetrix、Stanford cDNA等)。格式可以是res, gct, pcl,或 txt。
gct格式
Alt
第一行的数值是固定的。第二行的第一个数值19668是表达数据中的基因数或者探针数;第二个数值是样本数。

txt格式
Alt
第一行包括标签名和样本的标识,Description这一列如果没有要填的内容用NA代替。
文件的其余部分包含每个基因的数据。每行包含基因名、基因描述和数据集中每个样本的表达值。基因名称和描述可以包含空格,因为字段由制表符tab分隔。
选择以制表符分格的txt 作为保存文件类型。

(2)表型标签文件

CLS:分类(例如肿瘤与正常)类文件格式(.cls)

CLS文件格式定义表型(类或模板)标签,并将表达式数据中的每个样本与标签相关联。CLS文件格式使用空格或制表符分隔字段。CLS文件格式根据定义的是分类表型还是连续表型而有所不同。分类标签定义了离散的表型;例如,正常与肿瘤。对于分类标签,CLS文件格式的组织如下:
Alt
CLS文件的第一行包含表示样本数和类数。样本数应与相关RES或GCT数据文件中的样本数相对应。CLS文件中的第二行包含每个类的用户可见名称。这些是出现在分析报告中的类名。该行应以#开头,后跟空格。第三行包含每个样本的类标签。类标签可以是类名、数字或文本字符串。使用的第一个标签分配给第二行中命名类型的第一类;第二个标签分配给第二行命名的第二类;依此类推。(注意:标签的顺序决定类名和类标签的关联,即使类标签与类名相同。)此行指定的类标签总数应与第一行指定的样本数相同。此行指定的标签种类数应与第一行指定的类数相同。格式如下:
(sample 1 class) (space) (sample 2 class) (space) … (sample N class)
例如我整理的文件格式:
标签文件

2、数据导入

Alt
弹出确认窗口,无误后点击确认。

3、参数设置及运行

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
点击RUN后,状态栏显示running,如果报错,按照相应的错误提示进行调整和修改。

4、结果分析

如果样品比较多,Permumation type 选择了phenotype ,则设定FDR<0.25为可信的富集最有可能获得有功能研究价值的结果,如果样品数量较少,选择gene_set,那么标准要更加严格,FDR<0.05。
对于分析结果,我们一般认为NES的绝对值大于1,NOM p value <0.05, FDR q value <0.25的通路是显著富集的。

参考:
[1]:https://mp.weixin.qq.com/s/5ZEuII6ccJZZFdCsj6f3kA

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值