tcga数据下载_TCGA数据挖掘(二):数据下载与整理

本文介绍了如何使用TCGAbiolinks R包下载和整理TCGA数据。TCGAbiolinks的GDCquery和GDCdownload函数简化了数据获取过程,特别是GDCdownload通过API直接下载合并好的数据。此外,文章还提到了数据整理的方法,包括使用perl脚本来合并在线或官方工具下载的分开数据,并提供了相关脚本文件。
摘要由CSDN通过智能技术生成

关于TCGA数据库中的数据下载,我们之前有介绍过R语言下载包:R语言TCGA-Assembler包下载TCGA数据,同时在介绍数据库的使用教程中也介绍了在线下载以及官方下载工具下载:TCGA数据库使用教程。在线下载以及官方下载工具下载的数据是分开的,每个样本的数据的独立的,需要自己合并,这需要会R,Python 或者 perl 等编程语言(文末补充内容介绍)。

这里我们先介绍TCGAbiolinks包下载数据。因为这个包下载的数据是合并好的,不需要整理。

TCGAbiolinks下载TCGA数据

在第一讲我们介绍TCGAbiolinks包的时候,介绍了GDCquery这个函数,这是下载数据时要用到的函数,除此以外,我们还需要GDCdownload函数。GDCdownload函数使用GDC API或GDC传输工具下载GDC数据,用户可以使用查询参数查询的数据将保存在一个文件夹中:project/data.category。函数的整体框架为:

GDCdownload(query, token.file, method ="api", directory ="GDCdata",files.per.chunk =NULL)

各个参数介绍如下:

query:这个参数就是来自GDCquery的结果。

token.file:这个是下载受限的文件(仅适用于method=“client”),一般下载用不到。

method:使用API (POST方法)或gdc客户端工具。选择“api”,“client”。API更快,但是下载过程中数据可能会损坏,可能需要重新执行。

directory:下载数据的存放目录/文件夹。默认:GDCdata。

files.per.chunk:这将使API方法一次只下载n个(files.per.chunk)文件。当数据量过大时,可能会下载出错,可设置files.per.chunk参数减少下载问题。值为整数,即可将文件拆分为几个文件下载,如files.per.chunk = 6。

下面是一个下载数据的案例:

query <- GDCquery(project ="TCGA-ACC",data.category ="Copy number variation",legacy = TRUE,file.type ="hg19.seg",barcode = c("TCGA-OR-A5LR-01A-11D-A29H-01","TCGA-OR-A

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>