本文希望帮助大家快速使用GSEA软件进行基因集富集分析,如果希望了解GSEA分析原理话,可以看之前的文章使用clusterProfiler包进行富集分析。GSEA软件的使用可以分为以下四个步骤:
数据的准备
- 表达矩阵
- 表型文件
导入数据
运行GSEA
查看结果
下面以GEO芯片数据集(GSE7476)为例,一步步演示GSEA软件的使用。该数据集来自GPL570芯片平台,共有12个样本,包括9个肿瘤膀胱组织和3个正常膀胱组织。GSEA软件版本为4.0.1。
数据准备
表达矩阵
下载GSE7476数据集,如果网络差,可能导致数据下载不全,需要删除已下载的数据,重新下载。
setwd('./task-12')
rm(list = ls())
library(GEOquery)
gset 'GSE7476',destdir = '.', getGPL = T, AnnotGPL = T)
gset1 1]]
expr # 表达矩阵
pdata # 样本信息
fdata # 探针注释信息
筛选探针:
library(tidyverse)
fdata1 %
select(ID, `Gene symbol`) %>%
rename(symbol = `Gene symbol`) %>%
filter(!(symbol == '' | str_detect(symbol, '///')))
ID转换:
expr1 %
as.data.frame() %>%
rownames_to_column('ID') %>%
inner_join(fdata1, by = 'ID') %>%
relocate(symbol, .after = 'ID')<

本文详细介绍了如何使用GSEA软件进行基因集富集分析,包括数据准备、导入、运行GSEA和查看结果四个步骤。通过GEO芯片数据集GSE7476举例,展示了从表达矩阵处理到设置参数运行分析的完整过程,帮助读者理解GSEA分析的每个环节。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



