TCGA数据库下载及全流程分析(更新中)

一、GDCRNATools包下载

首先下载R包

if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager")

BiocManager::install("GDCRNATools")

下载好之后在再官网下载gdc-client工具和manifest文件到当前目录下,具体操作可以看我再丁香园中的帖子

运行,以COAD数据为例,下载:

library("GDCRNATools")
gdcRNADownload(manifest  = 'gdc_manifest_20200320_030436.txt',
               directory = 'TCGA-COAD/RNAseq')

但是等了好久发现下载速度实在太慢了,于是就放弃了这种方法,换下一种方法下载。

二、RTCGA包下载

在很久以前下载过这个包,所以直接运行它,安装可以参考这篇文章:安装

library(RTCGA.rnaseq)
dim(READ.mRNA)
library(RTCGA.clinical) 
expr <- expressionsTCGA(READ.rnaseq)

然后很快就得到了表达矩阵,但是我们发现列名并不是我们熟悉的gene symbol, 那么就需要转换。

首先把列明提取出来

idlist<-colnames(expr)
idlist<-data.frame(idlist)
write.csv(idlist,file="idlist.csv")
##用excel把list中的ID按照竖线分开,前面的就是gene symbol拉
##也可以用string包来搞
list<-read.csv(file="idlist.csv")

竖线后面的entrez的ID也可以通过DAVID网站转换,详见教程

list<-read.csv(file="idlist.csv")
exprdata<-expr
expr[1:5,1:5]
colnames(exprdata)<-list$idlist

exprdata<-t(exprdata)
write.csv(exprdata,file="exprtada.csv")
##至此表达矩阵就下载好啦

接下来我们下载临床数据

library(RTCGA.clinical) 
meta <- READ.clinical#得到临床信息
tmp=as.data.frame(colnames(meta))#得到列名的矩阵
write.csv(meta,file="clinicaltada.csv")
##临床数据也下载好啦

三、数据整合

将某个基因的表达量提取出来,与临床信息整合在一起。

四、绘制表达差异图

grapad绘图

参考资料:

1、GDCRNATools一个TCGA数据分析的全能选手

2、TCGA数据下载和整理工具----GDCRNATools

3、GDCRNATools的安装与使用---TCGA数据下载与分析工具(英文版)

4、bioconduct说明

5、TCGA数据下载网址:GDC

6、手把手教你用R语言下载TCGA数据库:GDCRNAtools(丁香园)

7、TCGA数据挖掘一:下载数据并提取临床及表达矩阵信息:RTCGA包

  • 8
    点赞
  • 78
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值