批量拷贝数据脚本_不止是NCBI的SRA可以下载测序数据

这篇博客介绍了如何批量下载来自GSA(Genome Sequence Archive)的数据,包括通过项目编号获取数据和使用wget脚本工具进行FTP下载。此外,还提到了肿瘤外显子流程中的拷贝数变异分析,推荐了相关软件和教程资源。
摘要由CSDN通过智能技术生成

大家看我在生信技能树发布的各个NGS组学的视频教程, 基本都是随手找到一篇文章,就去查询其原始数据,通常是在NCBI的SRA,然后使用prefetch下载sra文件,有的时候还好使用aspera进行加速。

d4a7e843b691d87aba9af8ddfb19018b.png

最近要开一个肿瘤外显子实战线下课程,想到了以前看到的发在 Proc Natl Acad Sci U S A. 2015 Nov的文章Extremely high genetic diversity in a single tumor points to prevalence of non-Darwinian cell evolution , 研究者对一个肿瘤 hepatocellular carcinoma (HCC) 样品测序超过300个部位,其中23个进行WES测序。但是研究者把数据上传到了GSA (Genome Sequence Archive),如下:

6fe25cb20004803cc26a3dc385cc095a.png

关于GSA

大家可以理解为NCBI的SRA数据库,通常我们看组学文章,都是找到其SRA的ID号,然后去NCBI的SRA下载的。

GSA (Genome Sequence Archive)是2015年底,中科院北京基因组研究所生命与健康大数据中心开发的原始组学数据归档库。数据模型和数据格式遵照INSDC标准,在功能上等同于NCBI的SRA,EBI的ENA和DDBJ的DRA。

感兴趣的可以自行阅读其官方说明:https://mp.weixin.qq.com/s/ma6GOcBHyYgUHBkQLOuDHQ

根据项目编号拿到

毫无疑问,把我们在文章拿到的编号输入GSA的查询窗口:

ef6fe1a6516a22341ab079bee535e5c1.png

就可以定位到其项目详情;

1e60082fdc0dcf6d7c53f30f6cb61c53.png

网页版  https://bigd.big.ac.cn/gsa/browse/CRA000004>

FTP版:ftp://download.big.ac.cn/gsa/CRA000004

00a2b5c494b4358aad429bbaaba981e1.png

批量下载ftp数据

上面的链接要批量下载,可以参考我四年前在生信菜鸟团的教程:用wget批量下载需要认证的网页或者ftp站点里面的pdf文档

wget -c -r -np -k -L -p  ftp://download.big.ac.cn/gsa/CRA000004/

参数详解如下 :

-c 断点续传
-r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件 
-np 递归下载时不搜索上层目录,一定要加上这个参数,不然会下载太多东西的)
-k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数
-L 递归时不进入其它主机,

或者写脚本工具文件名规律来wget分开下载。

echo ftp://download.big.ac.cn/gsa/CRA000004/SAMC000{180..203} |tr ' ' '\n' |awk '{print $0"\n"$0}'  > 1
echo /CRX0000{13..36}  |tr ' ' '\n'|awk '{print $0"\n"$0}'  > 2
echo /CRR0000{08..31}  |tr ' ' '\n' |awk '{print $0"\n"$0}' > 3
echo /CRD0000{08..55}.tar.gz |tr ' ' '\n' > 4
paste -d " "  1 2 3 4 |sed 's/ //g' > address.txt

上面代码有一个小坑,就是 08 这个字符串在MAC的shell里面会被识别为数值。

一般国内的服务器下载速度可以达到10M/s

然后,一般来说,下载命令需要 使用 nohup挂在后台哦。

接下来走肿瘤外显子流程

GATK4找肿瘤点突变教程

  • GATK4的gvcf流程
  • 你以为的可能不是你以为的
  • 新鲜出炉的GATK4培训教材全套PPT,赶快下载学习吧
  • 曾老湿最新私已:GATK4实战教程
  • GATK4的CNV流程-hg38
肿瘤拷贝数变异
  • WES的CNV探究-conifer软件使用
  • 单个样本NGS数据如何做拷贝数变异分析呢
  • 肿瘤配对样本用varscan 做cnv分析
  • 使用cnvkit来对大批量wes样本找cnv
  • GATK4的CNV流程-hg38
  • 使用sequenza软件判定肿瘤纯度
b08b6e8ec51095f6ca4d144a96947ca9.gif

全国巡讲约你

第1-11站北上广深杭,西安,郑州, 吉林,武汉,成都,港珠澳(全部结束)

一年一度的生信技能树单细胞线下培训班(已结束)

全国巡讲第12站-北京(下一站杭州)(结束报名)

全国巡讲第14、15站-兰州和贵阳(生信入门课全新改版)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值