R语言TCGA数据下载及处理biolinks包的学习与使用（一）数据下载

最新推荐文章于 2025-03-05 17:48:57 发布

18kkk

最新推荐文章于 2025-03-05 17:48:57 发布

阅读量1.8w

点赞数 26

文章标签： r语言开发语言 macos 生物信息学

本文链接：https://blog.csdn.net/m0_58549466/article/details/122468597

版权

biolinks包是一款非常方便的R包，可以直接处理很多TCGA数据

首先安装本包和其中一些相关的包，下载数据至少需要前两个包，后面的是生存分析需要，可以先不下载。如果不好下载建议上梯子。

if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager")
library(BiocManager)

BiocManager::install("TCGAbiolinks")
library(TCGAbiolinks)

install.packages("survminer")
library(survminer)

BiocManager::install("SummarizedExperiment")
library(SummarizedExperiment)

biolink包的核心函数在于：GDCquery，有11个参数：

1.project；

2.data.category；

3.data.type；

4.workflow.type；

5.legacy = FALSE；

6.access；

7.platform；

8.file.type；

9.barcode；

10.experimental.strategy；

11.sample.type

gbbTCGAbiolinks: Searching GDC database 本包官方教程

1.project:

也就是要下载的肿瘤的类型，使用代码查看肿瘤类型，缩写要自己去查是什么，本文用的是最常见的BRCA也就是乳腺癌了

TCGAbiolinks:::getGDCprojects()$project_id   #查看有哪些癌症
 [1] "TCGA-BRCA"             "GENIE-MSK"            
 [3] "GENIE-VICC"            "GENIE-UHN"            
 [5] "CPTAC-2"               "CMI-ASC"              
 [7] "BEATAML1.0-COHORT"     "CGCI-BLGSP"           
 [9] "BEATAML1.0-CRENOLANIB" "CMI-MPC"              
[11] "CMI-MBC"               "GENIE-GRCC"           
[13] "GENIE-MDA"             "GENIE-JHU"            
[15] "GENIE-NKI"             "FM-AD"                
[17] "VAREPOP-APOLLO"        "WCDT-MCRPC"           
[19] "GENIE-DFCI"            "TARGET-ALL-P3"        
[21] "TARGET-ALL-P2"         "OHSU-CNL"             
[23] "TARGET-ALL-P1"         "MMRF-COMMPASS"        
[25] "TARGET-CCSK"           "ORGANOID-PANCREATIC"  
[27] "NCICCR-DLBCL"          "TARGET-NBL"           
[29] "TARGET-OS"             "TARGET-RT"            
[31] "TARGET-WT"             "TCGA-LAML"            
[33] "CGCI-HTMCP-CC"         "TARGET-AML"           
[35] "HCMI-CMDC"             "TCGA-DLBC"            
[37] "TCGA-CHOL"             "CTSP-DLBCL1"          
[39] "TRIO-CRU"              "TCGA-MESO"            
[41] "TCGA-ACC"              "TCGA-UCS"             
[43] "TCGA-KICH"             "TCGA-PCPG"            
[45] "TCGA-ESCA"             "TCGA-THYM"            
[47] "TCGA-TGCT"             "TCGA-UVM"             
[49] "TCGA-CESC"             "TCGA-BLCA"            
[51] "TCGA-PAAD"             "TCGA-LIHC"            
[53] "TCGA-SKCM"             "TCGA-UCEC"            
[55] "TCGA-PRAD"             "REBC-THYR"            
[57] "TCGA-THCA"             "TCGA-OV"              
[59] "TCGA-LGG"              "TCGA-SARC"            
[61] "CPTAC-3"               "TCGA-COAD"            
[63] "TCGA-READ"             "TCGA-KIRP"            
[65] "TCGA-GBM"              "TCGA-STAD"            
[67] "TCGA-LUAD"             "TCGA-KIRC"            
[69] "TCGA-LUSC"             "TCGA-HNSC"

要下载乳腺癌，即

project="TCGA-BRCA"

2.data.category:

数据类别，包括转录图谱、甲基化数据、临床数据等多种数据类型

TCGAbiolinks:::getProjectSummary("TCGA-BRCA")#查看有哪些分类数据
$file_count
[1] 34686

$data_categories
  file_count case_count               data_category
1       8648       1044 Simple Nucleotide Variation
2        919        881          Proteome Profiling
3       1183       1098                    Clinical
4       5316       1098                 Biospecimen
5       6080       1097     Transcriptome Profiling
6       6627       1098       Copy Number Variation
7       4679       1098            Sequencing Reads
8       1234       1095             DNA Methylation

$case_count
[1] 1098

$file_size
[1] 5.707689e+13

case_count为病人数，file_count为对应的文件数，我们下载基因表达数据

 data.category = "Gene expression"

3.data.type

数据类型，常见的有以下三个

#下载rna-seq的counts数据
 data.type = "Gene Expression Quantification"
 #下载miRNA数据
 data.type = "miRNA Expression Quantification"
 #下载Copy Number Variation数据
 data.type = "Copy Number Segment"

我们下载基因表达量化数据

 data.type = "Gene expression quantification"

4.workflow.type

工作流程，有以下三个供选择

HTSeq - FPKM-UQ：FPKM上四分位数标准化值
HTSeq - FPKM：FPKM值/表达量值
HTSeq - Counts：原始count数

概念：

计算：

要求出FPKM值，需要获得三个参数。
cDNA Fragments：可以理解为单个基因比对到基因组上的reads数，在测序数据里就是count值。HTseq处理后可以直接得到结果。
Mapped Fragments：指每个样品中所有基因比对到基因组上的reads数。也就是用求和函数sum()将单一样品的count全部加起来。
Transcript Length：也就是exon length，是指reads比对到基因外显子上的长度。这个需要找到参考基因组才能获得数据。

区别：简单的讲，Counts是数据后台没有处理的原始表达量，而FPKM和FPKM-UQ是两种数据处理方法，也就是说，如果下载Counts数据，是表达量数据，如果下载FPKM数据，那么要注意这些数据是经过处理的。下载数据后，在数据分析时，用的方法也是不同的，Counts数据一般使用edgeR包或DESeq包，对数据做分析；如果下载FPKM数据，就不能使用edgeR包，只能只用DESeq包进行处理。在使用edgeR包做Counts数据处理时，是需要对数据进行normalize的，所以我们在下载数据时，下载counts是比较常用的。

workflow.type=“HTSeq - Counts”

5.legacy

这个参数主要是因为TCGA数据有两个入口可以下载，GDC Legacy Archive 和 GDC Data Portal，区别主要是注释参考基因组版本不同分别是：GDC Legacy Archive（hg19）和GDC Data Portal（hg38）。参数默认为FALSE，下载GDC Data Portal（hg38）。下载转录组层面的数据使用hg38，下载DNA层面的数据使用hg19，因为比如做SNP分析的时候很多数据库没有hg38版本的数据，都是hg19的。

至于hg19和hg38的区别，中文网上没有很好的答案，我自己搜索了以下，大概就是在做肿瘤单核苷酸变异（single nucleotid variant,SNV)的时候，是需要参考正常人的whole genome sequencing(WGS)结果，然后将短的测序reads匹配到参考基因组。目前WGS已经有很多代的结果，越来越先进，所以hg38是比19要更加准确。但有的时候需要在先前的工作基础上继续工作；或者需要和先前的工作对比，那就需要用回hg19，二者有工具可以切换。

6.access

数据开放和不开放，有两个参数:controlled, open。

我们这里使用：access=“open”

7.platform

平台有很多，可以自己去官网看需要什么平台，我们用Illumina

platform = "Illumina HiSeq"

8.barcode

这个是说可以指定只下载某些样本，我们为了数据处理快，就定义一些样本来下载，默认会下载所有样本

barcode的命名还是有一些规律的，但个人感觉不太重要哈

listSamples <- c("TCGA-E9-A1NG-11A-52R-A14M-07","TCGA-BH-A1FC-11A-32R-A13Q-07",
                 "TCGA-A7-A13G-11A-51R-A13Q-07","TCGA-BH-A0DK-11A-13R-A089-07",
                 "TCGA-E9-A1RH-11A-34R-A169-07","TCGA-BH-A0AU-01A-11R-A12P-07",
                 "TCGA-C8-A1HJ-01A-11R-A13Q-07","TCGA-A7-A13D-01A-13R-A12P-07",
                 "TCGA-A2-A0CV-01A-31R-A115-07","TCGA-AQ-A0Y5-01A-11R-A14M-07")

barcode = listSamples

9.file.type

下载数据hg19版本数据的时候使用，可以参考官网说明。这里设置为

file.type = "results"

如果你前面的legacy设置为F（默认），那么这里你下载hg38的时候就不需要设置这个选项了

10.experimental.strategy

两个下载入口参数选择，可以默认

11.sample.type

可以对样本类型进行过滤下载。要下载所有样本类型数据，不设置。部分值选择如下（全部可以查看官网）：如sample.type = "Recurrent Solid Tumor"大概就是说下载什么类型的肿瘤。

开始下载数据

listSamples <- c("TCGA-E9-A1NG-11A-52R-A14M-07","TCGA-BH-A1FC-11A-32R-A13Q-07",
                 "TCGA-A7-A13G-11A-51R-A13Q-07","TCGA-BH-A0DK-11A-13R-A089-07",
                 "TCGA-E9-A1RH-11A-34R-A169-07","TCGA-BH-A0AU-01A-11R-A12P-07",
                 "TCGA-C8-A1HJ-01A-11R-A13Q-07","TCGA-A7-A13D-01A-13R-A12P-07",
                 "TCGA-A2-A0CV-01A-31R-A115-07","TCGA-AQ-A0Y5-01A-11R-A14M-07")
query <- GDCquery(project = "TCGA-BRCA", 
                  data.category = "Gene expression",
                  data.type = "Gene expression quantification",
                  experimental.strategy = "RNA-Seq",
                  platform = "Illumina HiSeq",
                  file.type = "results",
                  barcode = listSamples, 
                  legacy = TRUE,
                  access="open"
                  workflow.type = "HTSeq - Counts")
GDCdownload(query)

下载成功以后，在工作环境的目录下就会多一个文件夹，里面是TCGA的数据