NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据

我是大南瓜

已于 2022-09-02 10:16:07 修改

阅读量2.7k

点赞数 2

分类专栏：科研软件基因组组装文章标签： linux

于 2022-08-28 00:06:11 首次发布

本文链接：https://blog.csdn.net/cfc424/article/details/126564034

版权

科研软件同时被 2 个专栏收录

20 篇文章 4 订阅

订阅专栏

基因组组装

6 篇文章 1 订阅

订阅专栏

NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据

高通量测序数据保存在公共基因组学网站中，其中包含 NCBI，EBI，BIG等，这些数据量庞大，若使用普通的下载方法（ wget，curl等），费时费力。因此，推荐使用高效下载工具，试过 Aspera比较好用。 Aspera是高效传输数据的软件，特别是对于现在的大数据基因组文件。

1. Linux下载安装Aspera软件

（1）在Aspera官方网站寻找下载链接：

https://www.ibm.com/products/aspera/downloads
https://www.ibm.com/aspera/connect/

找到下载界面：
在这里插入图片描述
（2）加载浏览器扩展并下载得到安装包：

（3）点击上面的Install Connect得到下面的安装包：

ibm-aspera-connect_4.2.2.135_linux.tar.gz
tar zxvf ibm-aspera-connect_4.2.2.135_linux.tar.gz 
## 得到下面文件
ibm-aspera-connect_4.2.2.135_linux.sh

（4）安装

chmod +x ibm-aspera-connect_4.1.0.46-linux_x86_64.sh
./ibm-aspera-connect_4.1.0.46-linux_x86_64.sh

export PATH=$PATH:~/.aspera/connect/bin/
echo 'export PATH=$PATH:~/.aspera/connect/bin/' >> ~/.bash_profile

2. 下载NCBI中SRR数据（`目前NCBI上不能用ascp下载sra数据，其他可以。。。`）

以前下载SRA数据使用下面的格式（之前的命令）：

/home/username/.aspera/connect/bin/ascp -k 1 -QT -l 200m\
 -i /home/username/.aspera/connect/etc/asperaweb_id_dsa.openssh -T anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR3581703/SRR3581703.sra  ./

本以为没问题就写下来了，测试发现上面的方法不能下载，提示：

Session Stop  (Error: Server aborted session: No such file or directory)

参考：

https://github.com/ncbi/sra-tools/issues/255

在这里插入图片描述

有帖子说可以EBI下载，自己测试的EBI上也没响应，奇怪（使用下面命令没响应）：

/home/username/.aspera/connect/bin/ascp -QT -l 300m -P33001 -i /home/username/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_1.fastq.gz .

无论如何，使用http下载肯定是没问题的：
$1 为SRR列表

for i in `cat $1`
do
	echo $i
	nohup wget -c https://sra-pub-run-odp.s3.amazonaws.com/sra/${i}/${i} 2>${i}.log &
done

3. 下载BIG拟南芥T2T原始数据

本次想要下载的是拟南芥T2T原始测序数据，文章如：
在这里插入图片描述

文章数据保存在GSA CRA004538号中，在BIG官网（https://ngdc.cncb.ac.cn/）找到数据链接，使用Aspera软件中的ascp命令下载：在这里插入图片描述
进入网站：https://ngdc.cncb.ac.cn/gsa/browse/CRA004538
看到很多下载方法，选择Aspera，点击Help查看下载key文件：

下载上面箭头中的key文件（aspera01.openssh），并保存到Linux服务器，使用下面的命令即可下载：

（1）一次性下载整个项目的原始数据文件夹 CRA004538


nohup /home/username/.aspera/connect/bin/ascp  -P33001  -k 1 \
 -i /data/username_data/24.arabidopsis_t2t_genome/aspera01.openssh  -QT -l200m -k1 \
 -d aspera01@download.cncb.ac.cn:gsa/CRA004538/   \
 /home/username/username_data/   &

（2）下载原始数据文件夹 CRA004538中单个数据CRR302667.fastq.gz

nohup /home/username/.aspera/connect/bin/ascp  -P33001  -k 1 \
 -i /data/username_data/24.arabidopsis_t2t_genome/aspera01.openssh  -QT -l200m -k1 \
 -d aspera01@download.cncb.ac.cn:gsa/CRA004538/CRR302667/CRR302667.fastq.gz   \
 /home/username/username_data/   &

参考：
https://www.ibm.com/aspera/connect/
https://gist.github.com/mfansler/71f09c8b6c9a95ec4e759a8ffc488be3
https://www.ncbi.nlm.nih.gov/sra/SRX17177572
https://ngdc.cncb.ac.cn/gsa/browse/CRA004538/CRR302668
https://www.sciencedirect.com/science/article/pii/S1672022921001741 （拟南芥文章）