TCGAbiolinks包下载TCGA数据

​​​​​​Bioconductor的TCGAbiolinks包用于GDC数据综合分析的R/Bioconductor软件包,本文主要展示下载数据集和代码。

1.   包的加载

# if (!requireNamespace("BiocManager", quietly = TRUE))
#   install.packages("BiocManager")
# 
# BiocManager::install("TCGAbiolinks")

library(TCGAbiolinks)
library(SummarizedExperiment)
library(dplyr)
library(DT)

ls("package:TCGAbiolinks")

# 查看有哪些projects
getGDCprojects()$project_id

# 查看某一个project含有哪些数据
project <- 'TCGA-COAD'
#project <- 'TCGA-READ' 
TCGAbiolinks:::getProjectSummary(project)

# data.type
#下载rna-seq的counts数据
data.type = "Gene Expression Quantification"
#下载miRNA数据
data.type = "miRNA Expression Quantification"
#下载Copy Number Variation数据
data.type = "Copy Number Segment"

#workflow.type 有三种类型分别为:

#HTSeq - FPKM-UQ:FPKM上四分位数标准化值
#HTSeq - FPKM:FPKM值/表达量值
#HTSeq - Counts:原始count数

#legacy

#这个参数主要是因为TCGA数据有两个入口可以下载,
#GDC Legacy Archive 和 GDC Data Portal,
#区别主要是注释参考基因组版本不同分别是:
#GDC Legacy Archive(hg19和GDC Data Portal(hg38)。
#参数默认为FALSE,下载GDC Data Portal(hg38)。
#这里建议是,下载转录组层面的数据使用hg38,
#下载DNA层面的数据使用hg19,
#因为比如做SNP分析的时候很多数据库没有hg38版本的数据,都是hg19的。

更多data.category,data.type,workflow.type的取值可以参考https://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html#Harmonized_data_options_(legacy_=_FALSE)

2. 临床特征数据的下载

#GDCquery_clinic()
# 下载患者临床数据。 参数save.csv = TRUE,下载到工作目录下
clin <- GDCquery_clinic(project, type = "clinical") 
# 下载样本信息,一个患者有多个临床样本。
sample_info <- GDCquery_clinic(project, type = "biospecimen")

3. 下载基因表达谱数据

# 下载rna_seq数据
query <- GDCquery(project = project,
                  data.category =  "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification",
                  workflow.type = "HTSeq - Counts")
GDCdownload(query, files.per.chunk = 200)
expdat <- GDCprepare(query= query)
count_matrix <- assay(expdat)
write.csv(count_matrix,file=paste(project,"counts.csv",sep="_"))

4. 下载甲基化数据

# 下载甲基化数据
query2 <- GDCquery(project = project,
                  data.category = "DNA methylation",
                  legacy=TRUE,
                  platform = "Illumina Human Methylation 27")
GDCdownload(query2, files.per.chunk = 300)
expdat2 <- GDCprepare(query= query2)
count_matrix2 <- assay(expdat2)
write.csv(count_matrix2,file=paste(project,"methylation.csv",sep="_"))

5. 下载miRNA数据

# 下载miRNA数据
query3 <- GDCquery(project = project,
                   data.category = "Transcriptome Profiling",
                   data.type = "miRNA Expression Quantification",
                   workflow.type = "BCGSC miRNA Profiling")
GDCdownload(query3, method = "api", files.per.chunk = 300)
expdat3 <- GDCprepare(query= query3)  # data.frame
write.csv(expdat3,file=paste(project,"miRNA.csv",sep="_"))

6. 下载cnv数据

# 下载cnv数据
query4 <- GDCquery(project = project,
                  data.category = "Copy Number Variation",
                  data.type="Masked Copy Number Segment")
GDCdownload(query4, files.per.chunk = 300)
expdat4 <- GDCprepare(query= query4) #"spec_tbl_df" "tbl_df" "tbl"  "data.frame"
write.csv(expdat4,file=paste(project,"cnv.csv",sep="_"))

7.下载基因组突变数据

Usage

GDCquery_Maf(tumor, save.csv = FALSE, directory = "GDCdata", pipelines = NULL)
getGDCprojects()$project_id
# get the mutation data
maf <- GDCquery_Maf("CHOL", pipelines = "muse")
dim(maf)

##  生存MAF对象,以便下游分析
library(maftools)
# write.csv(as.data.frame(maf),"test_maf.csv",row.names = FALSE)

# mock
# maf_clin <- data.frame('Tumor_Sample_Barcode'= maf2$Tumor_Sample_Barcode,
                       'class'=c(rep("unknow",length(maf2$Tumor_Sample_Barcode))))

# write.csv(as.data.frame(maf_clin),"test_maf_clin.csv",row.names = FALSE)

# maf_obj <- read.maf(maf = as.data.frame(maf), 
                    clinicalData = as.data.frame(maf_clin)) 

更方便地用浏览器下载癌症多组学数据:https://ucsc-xena.gitbook.io/project/public-data-we-host/tcga

参考

https://portal.gdc.cancer.gov

https://gdc.cancer.gov

https://rdrr.io/bioc/TCGAbiolinks/

https://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/index.html

https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

  • 5
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是使用TCGAbiolinksTCGA网站下载TCGA-OV(卵巢癌)项目的信息的代码: 1. 载入TCGAbiolinks: ``` library(TCGAbiolinks) ``` 2. 下载TCGA-OV项目的临床信息: ``` query_clinic <- GDCquery(project = "TCGA-OV", data.type = "Clinical") GDCdownload(query_clinic) OV_clinic <- GDCprepare_clinic(query_clinic) ``` 这段代码将从GDC数据存储库中下载TCGA-OV项目的临床信息,并将其准备用于后续的分析。 3. 下载TCGA-OV项目的基因表达量数据: ``` query_exp <- GDCquery(project = "TCGA-OV", data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification", workflow.type = "HTSeq - FPKM") GDCdownload(query_exp) OV_exp <- GDCprepare(query_exp) ``` 这段代码将从GDC数据存储库中下载TCGA-OV项目的基因表达量数据,该数据括HTSeq - FPKM数据类型的转录组数据,并将其准备用于后续的分析。 4. 下载TCGA-OV项目的DNA甲基化数据: ``` query_meth <- GDCquery(project = "TCGA-OV", data.category = "DNA Methylation", data.type = "Methylation Beta Value") GDCdownload(query_meth) OV_meth <- GDCprepare_methylation(query_meth) ``` 这段代码将从GDC数据存储库中下载TCGA-OV项目的DNA甲基化数据,并将其准备用于后续的分析。 5. 下载TCGA-OV项目的生存信息: ``` query_surv <- GDCquery(project = "TCGA-OV", data.type = "Clinical Supplement", data.format = "BCR Biotab") GDCdownload(query_surv) OV_surv <- GDCprepare_survival(query_surv) ``` 这段代码将从GDC数据存储库中下载TCGA-OV项目的生存信息,并将其准备用于后续的分析。 希望这些代码可以帮助您使用TCGAbiolinksTCGA网站下载TCGA-OV项目的信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值