linux下载测序数据,高速下载 EBI NCBI 测序数据(SRA,Fastq等)

本文介绍了如何在Linux环境下安装和配置Aspera工具,用于从EBI和NCBI快速下载生物信息学数据。通过详细步骤演示了Aspera的安装、配置许可、设置环境变量和秘钥,以及使用示例和参数解释。建议选择EBI是因为NCBI的数据迁移可能影响下载速度和完整性。
摘要由CSDN通过智能技术生成

文章目录

一、测试环境及工具

二、Aspera 下载

三、安装及配置

1. 解压

2. 安装

3. 配置许可

4. 配置程序环境变量

5. 配置秘钥

四、测试

1. 一个例子

2. 常用参数介绍

3. 下载地址的构建

4. EBI查询整个项目的资源文件

6. 查看下载链接

五、为什么这里要建议选EBI,而不用NCBI?

一、测试环境及工具

Linux(Ubuntu 18.04.1)

Aspera (Aspera Connect version 3.9.9.177872)

Aspera 适用于所有的 Linux 版本,可以按步骤测试在CentOS,Fedora等其他 Linux 发行版的效果

二、Aspera 下载

官网下载:http://downloads.asperasoft.com/en/downloads/8?list

1a73c86746110da3d3a5e8699f65cf81.png

csdn下载: https://download.csdn.net/download/u011262253/10402259

wget 下载:wget https://download.asperasoft.com/download/sw/connect/3.9.9/ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz

三、安装及配置

1. 解压

tar -zxvf ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz

2. 安装

./ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.sh

3. 配置许可

sudo cp ~/.aspera/connect/etc/aspera-license /usr/local/bin/

4. 配置程序环境变量

vim ~/.bashrc

在末尾加上你的aspera所在目录

export PATH="/home/baimoc/.aspera/connect/bin:$PATH"

立马生效

source ~/.bashrc

5. 配置秘钥

新建配置目录

mkdir /home/baimoc/.aspera/config/

复制到配置目录

cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh /home/baimoc/.aspera/config/

四、测试

1. 一个例子

ascp -QT -L /home/baimoc/logs -l 100M -P33001 -i /home/baimoc/.aspera/config/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR689/SRR689233/SRR689233_1.fastq.gz ./out_path

2. 常用参数介绍

命令

含义

ascp

aspera的可执行文件

-QT

禁用进度显示

-L /home/baimoc/logs

日志文件路径

-l 100M

最大传输

-P33001

SSH传输端口

-i /home/baimoc/.aspera/config/asperaweb_id_dsa.openssh

密钥文件路径

era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR689/SRR689233/SRR689233_1.fastq.gz

资源路径

./out_path

文件保存路径

3. 下载地址的构建

EBIera-fasp@fasp.sra.ebi.ac.uk:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff

NCBI:anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR507/SRR5077625/SRR5077625.sra

可以看到最关键的前缀是:era-fasp@fasp.sra.ebi.ac.uk:或anonftp@ftp-private.ncbi.nlm.nih.gov:

4. EBI查询整个项目的资源文件

https://www.ebi.ac.uk/ena/browser/view/PRJNA189204

56571e3d3a11ab29a72b97109fbd6194.png

6. 查看下载链接

提取对应列,即可下载相应的资源文件

2235e5640daf5e9810c8326e06c84837.png

五、为什么这里要建议选EBI,而不用NCBI?

这个是在 NCBI 下载时的链接及提示:

34809f079313ce233c7a88120371bbd1.png

59faf00776d1a217092361cb5dbc576d.png

简单来说就是:

现在NCBI正在将数据传输至亚马逊云 AWS 和 谷歌云 GS

美国境内服务器免费,其他的服务器收费,用户自己掏钱

由于正在迁移,所以NCBI也不保证数据的完整性

虽然也提供了免费的链接,但是实测速度奇慢无比

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值