tcga数据下载_使用Python下载TCGA数据

下载TCGA数据的方式很多种,这里再介绍如何使用python对TCGA中的各种数据进行下载。

01 Manifest文件

同样需要你准备好manifest文件,或者至少是带有fileid的txt文件,文件名为:gdc_manifest.txt

f2fb1fdae4a0f324f57e9e857f279b7a.png

02 Python脚本

脚本名为为:python_TCGA.py,其主要内容如下

# -*- coding: utf-8 -*-"""Created on Sat Apr 18 10:17:06 2020@author: dongl"""import requestsimport jsonimport reimport sysimport pandas as pddata_endpt = "https://api.gdc.cancer.gov/data"mainfest=pd.read_table(sys.argv[1],sep="\t")ids=list(mainfest['id'].values)params = {"ids": ids}response = requests.post(data_endpt,                        data = json.dumps(params),                        headers={                            "Content-Type": "application/json"                            })response_head_cd = response.headers["Content-Disposition"]file_name = re.findall("filename=(.+)", response_head_cd)[0]with open(file_name, "wb") as output_file:    output_file.write(response.content)

03 脚本使用

python_TCGA.py脚本使用方法相当简单,正确输入脚本名和manifest文件即可进行下载(缺点:相比于gdc-client,该脚本暂时还无动态的下载效果,看起来像死机一样)

python python_TCGA.py gdc_manifest.txt

下载到当前目录下,为压缩文件,文件名称一般是:

gdc_download_yyyymmdd_xxxxx.txt。这是所有case的压缩文件,接下来就可以采用之前的TCGA数据分析流程,对该数据进行分析了。

注:推荐使用该脚本进行数据下载,目前还未发现有重大报错,而且比gdc-client下载速度快

至此已经讲述了三种常用的TCGA数据下载方式了,总有一款适合你。

  • gdc-client下载:TCGA数据分析(1)

  • R语言下载:使用R下载TCGA数据

  • python下载

所有代码均在公众号文章中获取,也可以去粉丝群下载。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值