乳腺癌是以局部病变为首发症状的全身性疾病,肿瘤细胞转移生物学过程的复杂性,决定了从基因组水平蹄选与转移表型相关的功能基因成为目前乳腺癌转移预后相关基因研究的主要途径。通常是比较转移与不转移的细胞系,或同一细胞系的高转移与低转移的亚克隆虽然细胞系的遗传单一,蹄选基因的稳
定性和可重复性高,但由于细胞体外长期传代,其遗传基因已发生改变,不能客观反应体内的生物学特征。为此,基于乳腺癌病例组织标本,比较转移癌与原发癌或高、低转移潜能原发癌之间的基因表达差异,成为目前蹄选乳腺癌转移相关基因或基因表达特征(gene expression signatures)及乳腺癌生物学特征研究的主要方法。我们利用一组相关的乳腺癌组织标本芯片表达谱数据,采用生物信息学工具蹄选乳腺癌转移相关基因,为阐明乳腺癌发生和转移机制提供线索。
从NCBI共享数据库GEO下载乳腺癌转移相关的基因芯片数据,登录号为GSE2603其芯片平台为GPL96。GPL96 芯片平台([HG-U133 A] Affymetrix Human Genome U133 A Array)共包含1,000,000条寡核苷酸片段,22283个核酸探针,覆盖39,000个转录变异体,代表33,000条人全长基因。截至2012年3月,GPL96平台总共包含了 911个GSE中的30948个样品芯片数据信息。
GSE2603芯片数据来源于美国纽约Memorial Sloan Kettering癌症中心分子生物学系的基因组学中心心实验室,包括22例乳腺癌细胞系样本和99例乳腺癌组织样本,同时提供肿瘤大小、淋巴结状态、ER和PR状态等临床信息。去除细胞样本和未提供转移信息的组织样本,本研究只选取其中82例乳腺癌组织样本。在质量控制过程中我们可根据各种箱线图和RNA降解曲线图筛除不合格的乳腺癌组织样本,进而得到71例乳腺癌组织样本,我们用这71例样本做预处理实验,从中选取差异表达基因。
%Quality Control%
#Load the installation package of R
library(CLL)
library(simpleaffy)
library(gcrma)
library(affyPLM)
library(RColorBrewer)
library(affy)
library(graph)
library(affycoretools)
library(limma)
library(tcltk)
library(annotate)
library(XML)
library(IRanges)
library(org.Hs.eg.db)
library(DBI)
library(pheatmap)
library(GOstats)
library(base)
library(GeneAnswers)
%Read the data from the computer
filters <- matrix(c("CEL file", ".[Cc][Ee][Ll]", "All", ".*"), ncol = 2, byrow = T)
cel.files <-tk_choose.files(caption = "Select CELs", multi = TRUE,filters = filters, index = 1)
data.raw <- ReadAffy(filenames = cel.files)
data.raw #读取第一次质量控制筛选出的71例合格样本进行第二次质量控制
%Quality Control report
Data.qc <- qc(data.raw) #获取质量分析报告
plot(Data.qc) #图形化显示报告
%the original、weights、residual、residual.sign figures of Microarray data
Pset <- fitPLM(data.raw) #对数据集做回归计算,结果是一个“PLMset”类型的对象 image(data.raw[,1]) #画第一个芯片数据的原始图
image(Pset,type="weights",which=1,main="Weights") #根据计算结果画权重图
image(Pset,type="resids",which=1,main="Residuals") #根据计算结果画残差图
image(Pset,type="sign.resids",which=1,main="Residuals.sign") #根据计算结果画残差符号图
%draw relative log expression boxplot and normalized unscaled standard errors boxplot.
colors <- brewer.pal(12,"Set3") #载入一组颜色
Mbox(Pset,ylim=c(-1,1),col=c
GSE2603基于R语言对乳腺癌转移的数据挖掘
最新推荐文章于 2024-09-03 06:54:06 发布
该博客通过R语言分析GSE2603乳腺癌转移相关基因芯片数据,涉及数据预处理、质量控制、差异表达基因筛选和GO注释、富集分析,揭示乳腺癌转移的生物学机制。
摘要由CSDN通过智能技术生成