NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据
高通量测序数据保存在公共基因组学网站中,其中包含
NCBI,EBI,BIG
等,这些数据量庞大,若使用普通的下载方法(
wget,curl
等),费时费力。因此,推荐使用高效下载工具,试过
Aspera
比较好用。
Aspera
是高效传输数据的软件,特别是对于现在的大数据基因组文件。
1. Linux下载安装Aspera软件
(1)在Aspera官方网站寻找下载链接:
https://www.ibm.com/products/aspera/downloads
https://www.ibm.com/aspera/connect/
找到下载界面:
(2)加载浏览器扩展并下载得到安装包:
(3)点击上面的Install Connect
得到下面的安装包:
ibm-aspera-connect_4.2.2.135_linux.tar.gz
tar zxvf ibm-aspera-connect_4.2.2.135_linux.tar.gz
## 得到下面文件
ibm-aspera-connect_4.2.2.135_linux.sh
(4)安装
chmod +x ibm-aspera-connect_4.1.0.46-linux_x86_64.sh
./ibm-aspera-connect_4.1.0.46-linux_x86_64.sh
export PATH=$PATH:~/.aspera/connect/bin/
echo 'export PATH=$PATH:~/.aspera/connect/bin/' >> ~/.bash_profile
2. 下载NCBI中SRR数据 (目前NCBI上不能用ascp下载sra数据,其他可以。。。
)
以前下载SRA数据使用下面的格式(之前的命令):
/home/username/.aspera/connect/bin/ascp -k 1 -QT -l 200m\
-i /home/username/.aspera/connect/etc/asperaweb_id_dsa.openssh -T anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR3581703/SRR3581703.sra ./
本以为没问题就写下来了,测试发现上面的方法不能下载,提示:
Session Stop (Error: Server aborted session: No such file or directory)
参考:
https://github.com/ncbi/sra-tools/issues/255
有帖子说可以EBI下载,自己测试的EBI上也没响应,奇怪(使用下面命令没响应):
/home/username/.aspera/connect/bin/ascp -QT -l 300m -P33001 -i /home/username/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_1.fastq.gz .
无论如何,使用http下载肯定是没问题的:
$1 为SRR列表
for i in `cat $1`
do
echo $i
nohup wget -c https://sra-pub-run-odp.s3.amazonaws.com/sra/${i}/${i} 2>${i}.log &
done
3. 下载BIG拟南芥T2T原始数据
本次想要下载的是拟南芥T2T原始测序数据,文章如:
文章数据保存在GSA CRA004538
号中,在BIG官网(https://ngdc.cncb.ac.cn/
)找到数据链接,使用Aspera
软件中的ascp
命令下载:
进入网站:https://ngdc.cncb.ac.cn/gsa/browse/CRA004538
看到很多下载方法,选择Aspera,点击Help查看下载key文件:
下载上面箭头中的key文件
(aspera01.openssh
),并保存到Linux服务器,使用下面的命令即可下载:
(1)一次性下载整个项目的原始数据文件夹 CRA004538
nohup /home/username/.aspera/connect/bin/ascp -P33001 -k 1 \
-i /data/username_data/24.arabidopsis_t2t_genome/aspera01.openssh -QT -l200m -k1 \
-d aspera01@download.cncb.ac.cn:gsa/CRA004538/ \
/home/username/username_data/ &
(2)下载原始数据文件夹 CRA004538
中单个数据CRR302667.fastq.gz
nohup /home/username/.aspera/connect/bin/ascp -P33001 -k 1 \
-i /data/username_data/24.arabidopsis_t2t_genome/aspera01.openssh -QT -l200m -k1 \
-d aspera01@download.cncb.ac.cn:gsa/CRA004538/CRR302667/CRR302667.fastq.gz \
/home/username/username_data/ &
参考:
https://www.ibm.com/aspera/connect/
https://gist.github.com/mfansler/71f09c8b6c9a95ec4e759a8ffc488be3
https://www.ncbi.nlm.nih.gov/sra/SRX17177572
https://ngdc.cncb.ac.cn/gsa/browse/CRA004538/CRR302668
https://www.sciencedirect.com/science/article/pii/S1672022921001741 (拟南芥文章)