下载GSA文件

获取GSA项目号

因为想要复现一篇GWAS的文章,但是其数据上传到了GSA数据框。于是我就去查了一下GSA数据库的相关知识。GSA (Genome Sequence Archive)是2015年底,中科院北京基因组研究所生命与健康大数据中心开发的原始组学数据归档库。数据模型和数据格式遵照INSDC标准,在功能上等同于NCBI的SRA,EBI的ENA和DDBJ的DRA。
想要下载GSA上的数据,首先要先去论文中找到数据的项目号(CRA000167)
Analysis of genetic architecture and favorable allele usage of agronomic traits in a large collection of Chinese rice accessions

获取CRA号

然后就可以去Genome Sequence Archive进行搜索,
在这里插入图片描述
在这里插入图片描述

下载数据

获取到CRA号之后,就可以开始下载数据了
FTP版::ftp://download.big.ac.cn/gsa/CRA号

批量下载ftp数据命令如下

wget -c -r -np -k -L -p  ftp://download.big.ac.cn/gsa/CRA000004/
参数详解如下 :
-c 断点续传
-r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件 
-np 递归下载时不搜索上层目录,一定要加上这个参数,不然会下载太多东西的)
-k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数
-L 递归时不进入其它主机,

检验数据 md5

md5sum KPGP-00001_L1_R1.fq.gz> md5tmp1.txt

然后比较md5文件有没有差异,如果没有差异则表明下载成功。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值