下载TCGA数据的方式很多种,这里再介绍如何使用python对TCGA中的各种数据进行下载。
01 Manifest文件
同样需要你准备好manifest文件,或者至少是带有fileid的txt文件,文件名为:gdc_manifest.txt
02 Python脚本
脚本名为为:python_TCGA.py,其主要内容如下
# -*- coding: utf-8 -*-"""Created on Sat Apr 18 10:17:06 2020@author: dongl"""import requestsimport jsonimport reimport sysimport pandas as pddata_endpt = "https://api.gdc.cancer.gov/data"mainfest=pd.read_table(sys.argv[1],sep="\t")ids=list(mainfest['id'].values)params = {"ids": ids}response = requests.post(data_endpt, data = json.dumps(params), headers={ "Content-Type": "application/json" })response_head_cd = response.headers["Content-Disposition"]file_name = re.findall("filename=(.+)", response_head_cd)[0]with open(file_name, "wb") as output_file: output_file.write(response.content)
03 脚本使用
python_TCGA.py脚本使用方法相当简单,正确输入脚本名和manifest文件即可进行下载(缺点:相比于gdc-client,该脚本暂时还无动态的下载效果,看起来像死机一样)
python python_TCGA.py gdc_manifest.txt
下载到当前目录下,为压缩文件,文件名称一般是:
gdc_download_yyyymmdd_xxxxx.txt。这是所有case的压缩文件,接下来就可以采用之前的TCGA数据分析流程,对该数据进行分析了。
注:推荐使用该脚本进行数据下载,目前还未发现有重大报错,而且比gdc-client下载速度快
至此已经讲述了三种常用的TCGA数据下载方式了,总有一款适合你。
gdc-client下载:TCGA数据分析(1)
R语言下载:使用R下载TCGA数据
python下载
所有代码均在公众号文章中获取,也可以去粉丝群下载。