NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据


高通量测序数据保存在公共基因组学网站中,其中包含 NCBI,EBI,BIG等,这些数据量庞大,若使用普通的下载方法( wget,curl等),费时费力。因此,推荐使用高效下载工具,试过 Aspera比较好用。 Aspera是高效传输数据的软件,特别是对于现在的大数据基因组文件。

1. Linux下载安装Aspera软件

(1)在Aspera官方网站寻找下载链接:

https://www.ibm.com/products/aspera/downloads
https://www.ibm.com/aspera/connect/

找到下载界面:
在这里插入图片描述
(2)加载浏览器扩展并下载得到安装包:
在这里插入图片描述

(3)点击上面的Install Connect得到下面的安装包:

ibm-aspera-connect_4.2.2.135_linux.tar.gz
tar zxvf ibm-aspera-connect_4.2.2.135_linux.tar.gz 
## 得到下面文件
ibm-aspera-connect_4.2.2.135_linux.sh

(4)安装

chmod +x ibm-aspera-connect_4.1.0.46-linux_x86_64.sh
./ibm-aspera-connect_4.1.0.46-linux_x86_64.sh

export PATH=$PATH:~/.aspera/connect/bin/
echo 'export PATH=$PATH:~/.aspera/connect/bin/' >> ~/.bash_profile
2. 下载NCBI中SRR数据 (目前NCBI上不能用ascp下载sra数据,其他可以。。。

以前下载SRA数据使用下面的格式(之前的命令):

/home/username/.aspera/connect/bin/ascp -k 1 -QT -l 200m\
 -i /home/username/.aspera/connect/etc/asperaweb_id_dsa.openssh -T anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR3581703/SRR3581703.sra  ./

本以为没问题就写下来了,测试发现上面的方法不能下载,提示:

Session Stop  (Error: Server aborted session: No such file or directory)

参考:

https://github.com/ncbi/sra-tools/issues/255

在这里插入图片描述

有帖子说可以EBI下载,自己测试的EBI上也没响应,奇怪(使用下面命令没响应):

/home/username/.aspera/connect/bin/ascp -QT -l 300m -P33001 -i /home/username/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_1.fastq.gz .

无论如何,使用http下载肯定是没问题的:
$1 为SRR列表

for i in `cat $1`
do
	echo $i
	nohup wget -c https://sra-pub-run-odp.s3.amazonaws.com/sra/${i}/${i} 2>${i}.log &
done
3. 下载BIG拟南芥T2T原始数据

本次想要下载的是拟南芥T2T原始测序数据,文章如:
在这里插入图片描述

文章数据保存在GSA CRA004538号中,在BIG官网(https://ngdc.cncb.ac.cn/)找到数据链接,使用Aspera软件中的ascp命令下载:在这里插入图片描述
进入网站:https://ngdc.cncb.ac.cn/gsa/browse/CRA004538
看到很多下载方法,选择Aspera,点击Help查看下载key文件:
在这里插入图片描述在这里插入图片描述
下载上面箭头中的key文件aspera01.openssh),并保存到Linux服务器,使用下面的命令即可下载:

(1)一次性下载整个项目的原始数据文件夹 CRA004538


nohup /home/username/.aspera/connect/bin/ascp  -P33001  -k 1 \
 -i /data/username_data/24.arabidopsis_t2t_genome/aspera01.openssh  -QT -l200m -k1 \
 -d aspera01@download.cncb.ac.cn:gsa/CRA004538/   \
 /home/username/username_data/   &

(2)下载原始数据文件夹 CRA004538中单个数据CRR302667.fastq.gz

nohup /home/username/.aspera/connect/bin/ascp  -P33001  -k 1 \
 -i /data/username_data/24.arabidopsis_t2t_genome/aspera01.openssh  -QT -l200m -k1 \
 -d aspera01@download.cncb.ac.cn:gsa/CRA004538/CRR302667/CRR302667.fastq.gz   \
 /home/username/username_data/   &

参考:
https://www.ibm.com/aspera/connect/
https://gist.github.com/mfansler/71f09c8b6c9a95ec4e759a8ffc488be3
https://www.ncbi.nlm.nih.gov/sra/SRX17177572
https://ngdc.cncb.ac.cn/gsa/browse/CRA004538/CRR302668
https://www.sciencedirect.com/science/article/pii/S1672022921001741 (拟南芥文章)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值