癌症基因图谱( TCGA)数据库(一)数据下载

本文介绍了如何从TCGA数据库下载BRCA、BLCA、LGG、LUAD和LUSC五种癌症类型的RNA-seq数据,通过官方下载工具gdc-client在命令行下载大量样本数据。下载后,数据以gz格式存储在单独的文件夹中,接下来将利用Python对这些数据进行进一步处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在TCGA数据库中检索并下载5 种不同类型癌症(包括BRCA, BLCA, LGG, LUAD 和 LUSC)病例的 RNA转录组RNA-seq数据。一共有3329个TCGA样本,每个样本中有六万多个基因。数据下载完成后,还是一堆文件夹,接下来需要使用Python对数据进行处理。

下载数据

TCGA数据下载网址:https://portal.gdc.cancer.gov/
下载官方下载工具「gdc-client」:链接地址:gdc-client下载工具

1、先从TCGA数据库中下载三个文件:
在这里插入图片描述

2、然后下载官方下载工具,工具下载完之后不需要安装就可以直接使用,但是下载数据是在命令行中进行的,为了方便需要把安装工具配置到系统中的「环境变量。利用工具进行下载,打开命令行:输入以下命令,等待下载:
在这里插入图片描述

命令:gdc-client download -m 【txt文件地址】-d [下载文件的保存地址]

数据下载完成之后,为TCGA中的每一个数据分别创造了一个相应的文件夹,每个文件夹中都有一个对应的gz格式的安装包。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值