高速下载 EBI NCBI 测序数据(SRA,Fastq等)

57 篇文章 130 订阅
31 篇文章 8 订阅

一、测试环境及工具

  • Linux(Ubuntu 18.04.1)
  • Aspera (Aspera Connect version 3.9.9.177872)

Aspera 适用于所有的 Linux 版本,可以按步骤测试在CentOS,Fedora等其他 Linux 发行版的效果

二、Conda 方式安装 Aspera

conda install -y -c hcc aspera-cli

这里需要安装Conda (这是一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件依赖问题) : Conda 安装使用图文详解

三、传统方式安装 Aspera

官网下载:http://downloads.asperasoft.com/en/downloads/8?list

mark

csdn下载: https://download.csdn.net/download/u011262253/10402259

wget 下载:wget https://download.asperasoft.com/download/sw/connect/3.9.9/ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz

安装及配置

1. 解压

tar -zxvf ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz

2. 安装

./ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.sh

3. 配置许可

sudo cp ~/.aspera/connect/etc/aspera-license /usr/local/bin/

4. 配置程序环境变量

vim ~/.bashrc

在末尾加上你的aspera所在目录

export PATH="/home/baimoc/.aspera/connect/bin:$PATH"

立马生效

source ~/.bashrc

5. 配置秘钥

新建配置目录

mkdir /home/baimoc/.aspera/config/

复制到配置目录

cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh /home/baimoc/.aspera/config/

四、测试

1. 一个例子

ascp -QT -L /home/baimoc/logs -l 100M -P33001 -i /home/baimoc/.aspera/config/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR689/SRR689233/SRR689233_1.fastq.gz ./out_path

2. 常用参数介绍
命令含义
ascpaspera的可执行文件
-QT禁用进度显示
-L /home/baimoc/logs日志文件路径
-l 100M最大传输
-P33001SSH传输端口
-i /home/baimoc/.aspera/config/asperaweb_id_dsa.openssh密钥文件路径
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR689/SRR689233/SRR689233_1.fastq.gz资源路径
./out_path文件保存路径
3. 下载地址的构建

EBIera-fasp@fasp.sra.ebi.ac.uk:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff

NCBI:anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR507/SRR5077625/SRR5077625.sra

可以看到最关键的前缀是:era-fasp@fasp.sra.ebi.ac.uk:anonftp@ftp-private.ncbi.nlm.nih.gov:

4. EBI查询整个项目的资源文件

https://www.ebi.ac.uk/ena/browser/view/PRJNA189204

mark

6. 查看下载链接

提取对应列,即可下载相应的资源文件

mark

五、为什么这里要建议选EBI,而不用NCBI?

这个是在 NCBI 下载时的链接及提示:

mark

mark
简单来说就是:

  • 现在NCBI正在将数据传输至亚马逊云 AWS 和 谷歌云 GS
  • 美国境内服务器免费,其他的服务器收费,用户自己掏钱
  • 由于正在迁移,所以NCBI也不保证数据的完整性
  • 虽然也提供了免费的链接,但是实测速度奇慢无比
  • 10
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
您可以通过以下步骤下载转录组reads数据: 1. 确定您需要的转录组reads数据的来源。常见的来源包括NCBI Sequence Read Archive (SRA)、European Nucleotide Archive (ENA)、GenBank等。 2. 访问相应的数据库网站,比如NCBI SRA网站 (https://www.ncbi.nlm.nih.gov/sra/) 或 ENA网站 (https://www.ebi.ac.uk/ena)。 3. 在网站上使用关键词或项目名称搜索您需要的转录组reads数据。您可以使用过滤器来缩小搜索范围,比如物种、测序平台、测序类型等。 4. 找到符合您要求的数据集,并记录相关的访问号或样本号。 5. 如果您选择下载SRA格式的数据,您需要安装并使用SRA Toolkit来下载和处理数据。您可以从NCBISRA Toolkit网页 (https://www.ncbi.nlm.nih.gov/sra/docs/toolkitsoft/) 下载适合您操作系统的版本,并按照说明进行安装和配置。 6. 使用SRA Toolkit中的命令行工具,比如`prefetch`或`fastq-dump`,通过访问号或样本号来下载数据。具体的命令行参数可以在SRA Toolkit的文档中找到。 7. 如果您选择下载FASTQ格式的数据,您可以直接从数据库网站上下载压缩的FASTQ文件。一般来说,每个样本对应一个FASTQ文件,您可以选择下载所有的样本或者只选择您感兴趣的样本。 请注意,不同的数据库和数据集可能有不同的下载方式和使用条款,您可能需要事先注册账号或获取访问权限。此外,下载大规模的转录组reads数据可能需要较长的时间和大量的存储空间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白墨石

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值