CCLE是Cancer Cell Line Encyclopedia的简称, 是与肿瘤有关的细胞系的百科全书项目。
GDSC是Genomics of Drug Sensitivity in Cancer的简称,其中也有细胞系的药物敏感性数据。
下载细胞系的相关信息文件
wget ftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releases/current_release/Cell_Lines_Details.xlsx
下载基因芯片的RMA数据(Robust Multi-array Average),
细胞系的药物敏感性数据如下
这里主要分析RMA数据
library(readxl)
dat <- data.frame(read_excel("Cell_Lines_Details.xlsx", sheet=1), stringsAsFactors=F)
colnames(dat) <- gsub('\\.', '_', colnames(dat))
uro.data <- dat[which(dat$GDSC__Tissue_descriptor_1 =="urogenital_system"),]
## 选取了泌尿生殖系统的细胞系的数据
读取RMA文件,挑选以上细胞系对应的 基因表达数据
cosmic_id <- uro.data$COSMIC_identifier
rma.dat <- read.delim("sanger1018_brainarray_ensemblgene_rma.txt", sep='\t', header=T)
colnames(rma.dat) <- gsub( 'X', '', colnames(rma.dat))
selected_cols <- colnames(rma.dat)[colnames(rma.dat) %in% as.character(cosmic_id)]
uro_rma.dat <- rma.dat[, selected_cols ]
修改细胞系的Cosmic ID为细胞系的Sample Name
names(uro_rma.dat) <- uro.data$Sample_Name[match( names(uro_rma.dat), cosmic_id)]
进行主成分分析, 并将细胞系的生长特性(黏附或非黏附等等)作为标记色
pcs <- prcomp(t(uro_rma.dat))$x
mycol <- unclass(factor(uro.data$Growth_Properties[match(names(uro_rma.dat), uro.data$Sample_Name)]))
mypch <- mycol
最终作图, 并在几个关注的细胞系的数据点上方标记名字
pdf("PCA_fig.pdf", width=12, height=10)
par(mar=c(5.1, 4.1, 4.1, 7.4), xpd=TRUE)
plot(pcs[,c(1,2)], col=mycol, pch=mypch, xlab="Principle component 1", ylab="Principle component 2")
labeled_celllines <- pcs[names( uro_rma.dat ) %in% c('22RV1', 'DU-145', 'PC-3', 'LNCaP-Clone-FGC'), ]
text( labeled_celllines[,1], labeled_celllines[,2], rownames( labeled_celllines ), pos= 3 , col="red")
legend("topleft", as.character(levels(factor(unique(uro.data$Growth_Properties)))), col=seq(1:13), pch=seq(1:13), cex=.5, inset=c(0.01,0))
dev.off()
输出结果如图
RMA数据用到的芯片是 hgu133plus2平台, 有关的探针信息可以到以下网站查询
www.affymetrix.com/support/technical/byproduct.affx?product=hg-u133-plus
http://nmg-r.bioinformatics.nl/Packages_for_BioC_3.0.html
http://brainarray.mbni.med.umich.edu/Brainarray/Database/CustomCDF/21.0.0/entrezg.asp
http://brainarray.mbni.med.umich.edu/bioc/src/contrib/
Brainarray的芯片,最新版本是version 23, Released on Oct 26, 2018 ,这里只列举了version 21的数据下载页面。