初步分析CCLE和GDSC的数据——RNA表达矩阵

最新推荐文章于 2022-12-19 21:00:52 发布

imnoqiao

最新推荐文章于 2022-12-19 21:00:52 发布

阅读量5.9k

点赞数 2

分类专栏： R语言

本文链接：https://blog.csdn.net/imnoqiao/article/details/93887289

版权

R语言专栏收录该内容

3 篇文章 0 订阅

订阅专栏

CCLE是Cancer Cell Line Encyclopedia的简称，是与肿瘤有关的细胞系的百科全书项目。

GDSC是Genomics of Drug Sensitivity in Cancer的简称，其中也有细胞系的药物敏感性数据。

下载基因芯片的RMA数据(Robust Multi-array Average),

wget ftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releases/current_release/sanger1018_brainarray_ensemblgene_rma.txt.gz

细胞系的药物敏感性数据如下

wget ftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releases/current_release/v17.3_fitted_dose_response.xlsx

这里主要分析RMA数据

library(readxl)


dat <- data.frame(read_excel("Cell_Lines_Details.xlsx", sheet=1), stringsAsFactors=F)

colnames(dat) <- gsub('\\.', '_', colnames(dat))
uro.data <- dat[which(dat$GDSC__Tissue_descriptor_1 =="urogenital_system"),]

## 选取了泌尿生殖系统的细胞系的数据

读取RMA文件，挑选以上细胞系对应的基因表达数据

cosmic_id <- uro.data$COSMIC_identifier


rma.dat <- read.delim("sanger1018_brainarray_ensemblgene_rma.txt", sep='\t', header=T)
colnames(rma.dat) <- gsub( 'X', '', colnames(rma.dat))
selected_cols <- colnames(rma.dat)[colnames(rma.dat) %in% as.character(cosmic_id)]

uro_rma.dat <- rma.dat[, selected_cols ]

修改细胞系的Cosmic ID为细胞系的Sample Name

names(uro_rma.dat) <- uro.data$Sample_Name[match( names(uro_rma.dat), cosmic_id)]

进行主成分分析，并将细胞系的生长特性（黏附或非黏附等等）作为标记色

pcs <- prcomp(t(uro_rma.dat))$x

mycol <- unclass(factor(uro.data$Growth_Properties[match(names(uro_rma.dat), uro.data$Sample_Name)]))
mypch <- mycol

最终作图，并在几个关注的细胞系的数据点上方标记名字


pdf("PCA_fig.pdf", width=12, height=10)
par(mar=c(5.1, 4.1, 4.1, 7.4), xpd=TRUE)
plot(pcs[,c(1,2)], col=mycol, pch=mypch, xlab="Principle component 1", ylab="Principle component 2")

labeled_celllines <- pcs[names( uro_rma.dat ) %in% c('22RV1', 'DU-145', 'PC-3', 'LNCaP-Clone-FGC'), ]
text( labeled_celllines[,1], labeled_celllines[,2], rownames( labeled_celllines ), pos= 3 , col="red")

legend("topleft", as.character(levels(factor(unique(uro.data$Growth_Properties)))), col=seq(1:13), pch=seq(1:13), cex=.5, inset=c(0.01,0))
dev.off()

输出结果如图

RMA数据用到的芯片是 hgu133plus2平台，有关的探针信息可以到以下网站查询

www.affymetrix.com/support/technical/byproduct.affx?product=hg-u133-plus

http://nmg-r.bioinformatics.nl/Packages_for_BioC_3.0.html

http://brainarray.mbni.med.umich.edu/Brainarray/Database/CustomCDF/21.0.0/entrezg.asp

http://brainarray.mbni.med.umich.edu/bioc/src/contrib/

Brainarray的芯片，最新版本是version 23， Released on Oct 26, 2018 ，这里只列举了version 21的数据下载页面。

imnoqiao

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
初步分析CCLE和GDSC的数据——RNA表达矩阵

CCLE是Cancer Cell Line Encyclopedia的简称，是与肿瘤有关的细胞系的百科全书项目。GDSC是Genomics of Drug Sensitivity in Cancer的简称，其中也有细胞系的药物敏感性数据。下载细胞系的相关信息文件wgetftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releas...
复制链接

扫一扫

专栏目录