R语言---生信分析---ssGSEA基因集富集分析、免疫浸润
背景介绍
单样本基因集富集分析(single sample gene set enrichment analysis, ssGSEA),是GSEA方法的扩展,计算每个样本和基因集配对的富集分数。每个ssGSEA富集评分代表了样本中特定基因集的成员被协调上调或下调的程度
代码
0. 设置工作目录,加载需要的包
setwd('D:\\Desktop\\GEO分析\\GSE1991')
rm(list=ls())
1. 读取 TPM 表达矩阵数据,或表型数据
https://blog.csdn.net/dujidan/article/details/128321593
a <- read.table('data_tpms.xls',
header = T)
# ,row.names=1)#读取已经下载好的补充的表达矩阵压缩文件
a[1:4,1:4]
#去掉基因名,得到纯粹的表达矩阵raw_data
raw_data<- a[,-1]
raw_data[1:4,1:4]
###读取表型信息
pheno <- read.csv(file = 'GSE1991_series_matrix.txt')
# 获取Sample_title Sample_characteristics, 标本名称、样本编号 进行处理,替换为P
# pheno <- data.frame(num1 = strsplit(as.character(pheno[42,]),split='\t')[[1]][-1],
# num2 = gsub('patient: No.','P',strsplit(as.character(pheno[51,]),split='\t')[[1]][-1]))
2. 数据处理
####数据过滤,把表达量和为0的基因去掉(去O)
data<- a[!apply(raw_data,1,sum)==0,]
####去除重复基因名的行,归一化
data$median=apply(data[,-1],1,median)#计算每行的中位数,添加到 data数据中
data[1:4,1:4]
data