如何从cBioPortal批量下载TCGA数据

本文介绍如何利用cBioPortal平台高效下载癌症基因组数据集,包括使用R包cgdsr进行数据集分析,以及通过构建shell脚本自动化下载大量数据的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

cBioPortal对癌症基因组数据集做了比较好的整合,为了进行数据集的下载、分析和可视化。

可以用网页工具或者它们提供的R包"cgdsr"对几个目标基因进行分析,或者下载他们从Broad Institute Firehose下载整理的数据集。

cBioPortal的数据集下载页面如下,可以直接点击下载按钮下载单个数据集, 如果要批量下载,就需要一点网络爬虫的小知识。

2013053-f477b61eb84d0a59.png
网页内容

使用Chrome浏览器的检查功能,寻找实际的下载地址

2013053-42440868dad38085.png
image.png

不难发现,下载链接是http://download.cbioportal.org/paac_jhu_2014.tar.gz

2013053-3049884a06967a69.png
下载地址

一开始的想法是,用curl http://www.cbioportal.org/datasets下载网页,然后用grep找到所有的下载链接,但是通过检查原代码,我发现这个页面其实是动态加载,不能通过常规的爬虫手段。

根据我的爬虫经验,下一步就是找JSON包,一般这种延迟加载的网页都会接着向服务器发起申请,获取需要的数据,果不其然,被我找到了json包。

2013053-d3d13023c54abf51.png
JSON
wget http://www.cbioportal.org/proxy/download.cbioportal.org/study_list.json

检查该文件,推测里面每一行都是之前下载链接中压缩包文件名前缀

2013053-a2cac4689e8282ec.png
json内信息

构建一个下载shell脚本

for study in $(sed  -e 's/"//g'  -e 's/\[//' -e 's/\]//'  -e 's/,//' study_list.json)
do
    wget "http://download.cbioportal.org/${study}.tar.gz"
done 

发现能够顺利下载,证明了猜测,就是下载速度非常的感人。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值