TCGA数据下载教程:使用官方gdc-client软件下载

前言

本教程涉及内容:

  1. TCGA网页数据下载,检索方式
  2. gdc-client软件安装和配置
  3. 使用gdc-client下载TCGA数据
[补充]
  1. 怎么根据TCGA官方的API下载数据?简单几句命令轻轻松松下载想要的TCGA大数据
  2. Python脚本下载TCGA大数据,非常简单,开放源代码
  3. 图形界面下载TCGA大数据,GitHub项目
  4. 插播CPI Retrieval System
    自己搭建的化合物和 蛋白质相互作用关系检索系统。本系统是基于深度学习模型自动提取文献摘要中的关系而来。欢迎访问指教。
    这里写图片描述

正文开始

本教程使用原生态的TCGA官方数据下载方式,比使用第三方的工具具有数据更新快,真实的特点,当然如果觉得麻烦可以使用第三方的一些工具,单对于想要真正了解TCGA数据库的人,还是使用原生态的TCGA方式。

TCGA改版后,下载方式变得大为不同,数据都整合在GDC(Genomic Data Commons)的DATA PORTAL中。
TCGA官网:https://cancergenome.nih.gov/
TCGA数据下载网址:https://portal.gdc.cancer.gov/
Data Transfer Tool网址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
如果下载慢,我这提供一份下载好的连接:
https://github.com/chenwi/TCGAD/blob/master/gdc-client_v1.3.0_Windows_x64.zip

TCGA官网数据检索

如果在官网下,需要点击右边的Launch Data Portal,也就是上面TCGA数据下载的网址
这里写图片描述
进入到数据下载页面(可以直接点击上面TCGA数据下载网址)后,看到的目前版本如下,目前已有40个project,32555个case。
这里写图片描述

我以白血病(AML)为例,下载与白血病相关的miRNA数据。
首先点击上图的Repository进入数据检索界面,你看到的界面如下:
这里写图片描述
File栏目下,选择Experiment StrategymiRNA-Seq 还有Data TypemiRNA Expression Quantification;然后在Case栏目下选择Primary Site 中的BloodBone Marrow,和Disease TypeAcute Myeloid Leukemia,这时候你会看到界面变成下面这样了:
这里写图片描述
因为一般只能下载open数据,所有,可以再上面图中Access Level的地方点击一下 ,就会得到知识open的数据了(不点击也没关系,反正后期只会下载open的数据)

这次选择下载的是miRNA-Seq数据,上图显示共有265个case,301个文件,为什么会比case数多呢,说明一些case不止对应1个miRNA-Seq样本的文件,有些是重复。所有数据一共15.14MB,也不大,可以直接在网页下载,但是,本教程是讲解使用官方API下载,数据小更好演示,下面具体讲解使用gdc-client下载数据。(TCGA数据库在数据下载有规定:让Cart文件夹大于50M时,只能通过Data Transfer Tool工具进行下载。所以我这次要使用Data Transfer Tool工具来下载数据。)

首先点击上图中Manifest 这时候会下载一个包含所有文件名的小txt文件,是后面下载TCGA数据所必须准备的。我下载保存到下面文件夹了:
这里写图片描述

安装配置 Data Transfer Tool

如何安装Data Transfer Tool,也就是gdc-client这个接口软件呢?
要安装Data Transfer Tool,需要到下载页面下载该工具。
Data Transfer Tool网址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
进去界面后,找到下图的地方,并选择windows环境下的工具,也就是打钩的那个。下载后解压缩即可使用。至于怎么用,我刚开始看到是.exe文件,但是这个软件是需要用命令行来使用的。

这里写图片描述
我把该工具解压到下面这个文件夹,根据图标,说明这个软件是用Python写的,然后使用Pyinstaller打包的。
!!!!!!!!!!!!!!!**注意**!!!!!!!!!!!!!!!!!
该软件不能解压到含有中文名的文件夹下,否则会报错,不能使用!!!
这里写图片描述
具体使用:打开CMD命令行窗口,输入-h命令,可以看软件是否能使用。
这里写图片描述

把gdc-client加入环境变量

有没有发现我的这个命令很长?那是因为,我还没把这个软件加入环境变量,如果以后想在任何一个路劲简单使用gdc-client这个命令,那就需要把这个软件的路径加到环境变量。就是在Path加入刚刚软件所在的路径即可”。具体操作如下:
打开电脑控制面板——》系统和安全——》系统——》高级系统设置——》环境变量——》Path——》“加入你的gdc-client所在路径” ,然后应用保存。

  1. 打开电脑控制面板
    这里写图片描述
  2. 系统和安全
    这里写图片描述
  3. 系统
    这里写图片描述
  4. 高级系统设置
    这里写图片描述
  5. 环境变量
    这里写图片描述
  6. Path
    这里写图片描述

上面配置都完成后,看下图,现在简单输入gdc-client -h 就行了。
这里写图片描述

使用gdc-client下载TCGA数据

下载方式很简单,还记得上文中下载的Manifest文件吧,然后在windows下打开cmd,并在其中输入下载命令:

gdc-client download -m gdc_manifest.2018-07-02.txt

然后就是慢慢下载了,如果中间有报错断了,一般就是网络不好的原因,重新下载或者换个时间段就行了。
最后就下载完了,一共301个文件,命令行界面和文件夹界面如下所示:
这里写图片描述
这里写图片描述

此教程结束。

其他使用python自定义脚本下载,以及将多个文件合并到一起的教程,请参考我的其他博文。

  • 40
    点赞
  • 185
    收藏
    觉得还不错? 一键收藏
  • 101
    评论
评论 101
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值