初步分析CCLE和GDSC的数据——RNA表达矩阵

CCLE是Cancer Cell Line Encyclopedia的简称, 是与肿瘤有关的细胞系的百科全书项目。

GDSC是Genomics of Drug Sensitivity in Cancer的简称,其中也有细胞系的药物敏感性数据。

 

下载细胞系的相关信息文件

wget ftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releases/current_release/Cell_Lines_Details.xlsx

下载基因芯片的RMA数据(Robust Multi-array Average),

wget ftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releases/current_release/sanger1018_brainarray_ensemblgene_rma.txt.gz

细胞系的药物敏感性数据如下

wget ftp://ftp.sanger.ac.uk/pub/project/cancerrxgene/releases/current_release/v17.3_fitted_dose_response.xlsx

 

这里主要分析RMA数据

library(readxl)


dat <- data.frame(read_excel("Cell_Lines_Details.xlsx", sheet=1), stringsAsFactors=F)

colnames(dat) <- gsub('\\.', '_', colnames(dat))
uro.data <- dat[which(dat$GDSC__Tissue_descriptor_1 =="urogenital_system"),]

## 选取了泌尿生殖系统的细胞系的数据

读取RMA文件,挑选以上细胞系对应的 基因表达数据

cosmic_id <- uro.data$COSMIC_identifier


rma.dat <- read.delim("sanger1018_brainarray_ensemblgene_rma.txt", sep='\t', header=T)
colnames(rma.dat) <- gsub( 'X', '', colnames(rma.dat))
selected_cols <- colnames(rma.dat)[colnames(rma.dat) %in% as.character(cosmic_id)]

uro_rma.dat <- rma.dat[, selected_cols ]

修改细胞系的Cosmic ID为细胞系的Sample Name

names(uro_rma.dat) <- uro.data$Sample_Name[match( names(uro_rma.dat), cosmic_id)]

进行主成分分析, 并将细胞系的生长特性(黏附或非黏附等等)作为标记色

pcs <- prcomp(t(uro_rma.dat))$x

mycol <- unclass(factor(uro.data$Growth_Properties[match(names(uro_rma.dat), uro.data$Sample_Name)]))
mypch <- mycol

最终作图, 并在几个关注的细胞系的数据点上方标记名字


pdf("PCA_fig.pdf", width=12, height=10)
par(mar=c(5.1, 4.1, 4.1, 7.4), xpd=TRUE)
plot(pcs[,c(1,2)], col=mycol, pch=mypch, xlab="Principle component 1", ylab="Principle component 2")

labeled_celllines <- pcs[names( uro_rma.dat ) %in% c('22RV1', 'DU-145', 'PC-3', 'LNCaP-Clone-FGC'), ]
text( labeled_celllines[,1], labeled_celllines[,2], rownames( labeled_celllines ), pos= 3 , col="red")

legend("topleft", as.character(levels(factor(unique(uro.data$Growth_Properties)))), col=seq(1:13), pch=seq(1:13), cex=.5, inset=c(0.01,0))
dev.off()

 

输出结果如图

 

 

RMA数据用到的芯片是 hgu133plus2平台, 有关的探针信息可以到以下网站查询

www.affymetrix.com/support/technical/byproduct.affx?product=hg-u133-plus

 http://nmg-r.bioinformatics.nl/Packages_for_BioC_3.0.html

http://brainarray.mbni.med.umich.edu/Brainarray/Database/CustomCDF/21.0.0/entrezg.asp

http://brainarray.mbni.med.umich.edu/bioc/src/contrib/

Brainarray的芯片,最新版本是version 23, Released on Oct 26, 2018 ,这里只列举了version 21的数据下载页面。

 

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值