GSEA分析简介
基因集富集分析(GSEA)是一种计算方法,用于确定一组定义好的基因是否在两种生物状态(如表型)之间显示出统计上显著的一致性差异。
分析步骤
首先在官网下载软件:软件下载
1、准备数据
使用GSEA时,可以提供四个数据文件:表达数据集文件、表型标签文件、基因集文件和芯片注释文件。下面我们逐个来看
(1)表达数据文件
包含特征(基因或探针)、样本以及每个样本中每个特征的表达值。表达数据可以来自任何来源(Affymetrix、Stanford cDNA等)。格式可以是res, gct, pcl,或 txt。
gct格式:
第一行的数值是固定的。第二行的第一个数值19668是表达数据中的基因数或者探针数;第二个数值是样本数。
txt格式:
第一行包括标签名和样本的标识,Description这一列如果没有要填的内容用NA代替。
文件的其余部分包含每个基因的数据。每行包含基因名、基因描述和数据集中每个样本的表达值。基因名称和描述可以包含空格,因为字段由制表符tab分隔。
选择以制表符分格的txt 作为保存文件类型。
(2)表型标签文件
CLS:分类(例如肿瘤与正常)类文件格式(.cls)
CLS文件格式定义表型(类或模板)标签,并将表达式数据中的每个样本与标签相关联。CLS文件格式使用空格或制表符分隔字段。CLS文件格式根据定义的是分类表型还是连续表型而有所不同。分类标签定义了离散的表型;例如,正常与肿瘤。对于分类标签,CLS文件格式的组织如下:
CLS文件的第一行包含表示样本数和类数。样本数应与相关RES或GCT数据文件中的样本数相对应。CLS文件中的第二行包含每个类的用户可见名称。这些是出现在分析报告中的类名。该行应以#开头,后跟空格。第三行包含每个样本的类标签。类标签可以是类名、数字或文本字符串。使用的第一个标签分配给第二行中命名类型的第一类;第二个标签分配给第二行命名的第二类;依此类推。(注意:标签的顺序决定类名和类标签的关联,即使类标签与类名相同。)此行指定的类标签总数应与第一行指定的样本数相同。此行指定的标签种类数应与第一行指定的类数相同。格式如下:
(sample 1 class) (space) (sample 2 class) (space) … (sample N class)
例如我整理的文件格式:
2、数据导入
弹出确认窗口,无误后点击确认。
3、参数设置及运行
点击RUN后,状态栏显示running,如果报错,按照相应的错误提示进行调整和修改。
4、结果分析
如果样品比较多,Permumation type 选择了phenotype ,则设定FDR<0.25为可信的富集最有可能获得有功能研究价值的结果,如果样品数量较少,选择gene_set,那么标准要更加严格,FDR<0.05。
对于分析结果,我们一般认为NES的绝对值大于1,NOM p value <0.05, FDR q value <0.25的通路是显著富集的。
参考:
[1]:https://mp.weixin.qq.com/s/5ZEuII6ccJZZFdCsj6f3kA