关于TCGA数据库中的数据下载,我们之前有介绍过R语言下载包:R语言TCGA-Assembler包下载TCGA数据,同时在介绍数据库的使用教程中也介绍了在线下载以及官方下载工具下载:TCGA数据库使用教程。在线下载以及官方下载工具下载的数据是分开的,每个样本的数据的独立的,需要自己合并,这需要会R,Python 或者 perl 等编程语言(文末补充内容介绍)。
这里我们先介绍TCGAbiolinks包下载数据。因为这个包下载的数据是合并好的,不需要整理。
TCGAbiolinks下载TCGA数据
在第一讲我们介绍TCGAbiolinks包的时候,介绍了GDCquery这个函数,这是下载数据时要用到的函数,除此以外,我们还需要GDCdownload函数。GDCdownload函数使用GDC API或GDC传输工具下载GDC数据,用户可以使用查询参数查询的数据将保存在一个文件夹中:project/data.category。函数的整体框架为:
GDCdownload(query, token.file, method ="api", directory ="GDCdata",files.per.chunk =NULL)
各个参数介绍如下:
query:这个参数就是来自GDCquery的结果。
token.file:这个是下载受限的文件(仅适用于method=“client”),一般下载用不到。
method:使用API (POST方法)或gdc客户端工具。选择“api”,“client”。API更快,但是下载过程中数据可能会损坏,可能需要重新执行。
directory:下载数据的存放目录/文件夹。默认:GDCdata。
files.per.chunk:这将使API方法一次只下载n个(files.per.chunk)文件。当数据量过大时,可能会下载出错,可设置files.per.chunk参数减少下载问题。值为整数,即可将文件拆分为几个文件下载,如files.per.chunk = 6。
下面是一个下载数据的案例:
query <- GDCquery(project ="TCGA-ACC",data.category ="Copy number variation",legacy = TRUE,file.type ="hg19.seg",barcode = c("TCGA-OR-A5LR-01A-11D-A29H-01","TCGA-OR-A

本文介绍了如何使用TCGAbiolinks R包下载和整理TCGA数据。TCGAbiolinks的GDCquery和GDCdownload函数简化了数据获取过程,特别是GDCdownload通过API直接下载合并好的数据。此外,文章还提到了数据整理的方法,包括使用perl脚本来合并在线或官方工具下载的分开数据,并提供了相关脚本文件。
最低0.47元/天 解锁文章
1425

被折叠的 条评论
为什么被折叠?



