NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据


高通量测序数据保存在公共基因组学网站中,其中包含 NCBI,EBI,BIG等,这些数据量庞大,若使用普通的下载方法( wget,curl等),费时费力。因此,推荐使用高效下载工具,试过 Aspera比较好用。 Aspera是高效传输数据的软件,特别是对于现在的大数据基因组文件。

1. Linux下载安装Aspera软件

(1)在Aspera官方网站寻找下载链接:

https://www.ibm.com/products/aspera/downloads
https://www.ibm.com/aspera/connect/

找到下载界面:
在这里插入图片描述
(2)加载浏览器扩展并下载得到安装包:
在这里插入图片描述

(3)点击上面的Install Connect得到下面的安装包:

ibm-aspera-connect_4.2.2.135_linux.tar.gz
tar zxvf ibm-aspera-connect_4.2.2.135_linux.tar.gz 
## 得到下面文件
ibm-aspera-connect_4.2.2.135_linux.sh

(4)安装

chmod +x ibm-aspera-connect_4.1.0.46-linux_x86_64.sh
./ibm-aspera-connect_4.1.0.46-linux_x86_64.sh

export PATH=$PATH:~/.aspera/connect/bin/
echo 'export PATH=$PATH:~/.aspera/connect/bin/' >> ~/.bash_profile
2. 下载NCBI中SRR数据 (目前NCBI上不能用ascp下载sra数据,其他可以。。。

以前下载SRA数据使用下面的格式(之前的命令):

/home/username/.aspera/connect/bin/ascp -k 1 -QT -l 200m\
 -i /home/username/.aspera/connect/etc/asperaweb_id_dsa.openssh -T anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR3581703/SRR3581703.sra  ./

本以为没问题就写下来了,测试发现上面的方法不能下载,提示:

Session Stop  (Error: Server aborted session: No such file or directory)

参考:

https://github.com/ncbi/sra-tools/issues/255

在这里插入图片描述

有帖子说可以EBI下载,自己测试的EBI上也没响应,奇怪(使用下面命令没响应):

/home/username/.aspera/connect/bin/ascp -QT -l 300m -P33001 -i /home/username/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_1.fastq.gz .

无论如何,使用http下载肯定是没问题的:
$1 为SRR列表

for i in `cat $1`
do
	echo $i
	nohup wget -c https://sra-pub-run-odp.s3.amazonaws.com/sra/${i}/${i} 2>${i}.log &
done
3. 下载BIG拟南芥T2T原始数据

本次想要下载的是拟南芥T2T原始测序数据,文章如:
在这里插入图片描述

文章数据保存在GSA CRA004538号中,在BIG官网(https://ngdc.cncb.ac.cn/)找到数据链接,使用Aspera软件中的ascp命令下载:在这里插入图片描述
进入网站:https://ngdc.cncb.ac.cn/gsa/browse/CRA004538
看到很多下载方法,选择Aspera,点击Help查看下载key文件:
在这里插入图片描述在这里插入图片描述
下载上面箭头中的key文件aspera01.openssh),并保存到Linux服务器,使用下面的命令即可下载:

(1)一次性下载整个项目的原始数据文件夹 CRA004538


nohup /home/username/.aspera/connect/bin/ascp  -P33001  -k 1 \
 -i /data/username_data/24.arabidopsis_t2t_genome/aspera01.openssh  -QT -l200m -k1 \
 -d aspera01@download.cncb.ac.cn:gsa/CRA004538/   \
 /home/username/username_data/   &

(2)下载原始数据文件夹 CRA004538中单个数据CRR302667.fastq.gz

nohup /home/username/.aspera/connect/bin/ascp  -P33001  -k 1 \
 -i /data/username_data/24.arabidopsis_t2t_genome/aspera01.openssh  -QT -l200m -k1 \
 -d aspera01@download.cncb.ac.cn:gsa/CRA004538/CRR302667/CRR302667.fastq.gz   \
 /home/username/username_data/   &

参考:
https://www.ibm.com/aspera/connect/
https://gist.github.com/mfansler/71f09c8b6c9a95ec4e759a8ffc488be3
https://www.ncbi.nlm.nih.gov/sra/SRX17177572
https://ngdc.cncb.ac.cn/gsa/browse/CRA004538/CRR302668
https://www.sciencedirect.com/science/article/pii/S1672022921001741 (拟南芥文章)

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: NCBI-BLAST-2.13.0-win64是一种基于谷氨酰胺脲和其他生物信息学技术的序列比对软件包。这个软件被广泛用于分析DNA,RNA和蛋白质序列,使得比对过程能够更加快速精确。该软件中包含了多个工具,如核酸和蛋白质序列比对,重排序,序列相似性搜索,基于模板的序列比对等。 NCBI-BLAST-2.13.0-win64具有许多特性和功能,例如可以查询各种序列数据库,对于不同的序列类型具有不同的比对策略,可以进行加速计算和多进程处理,支持多种输出格式,可以进行本地安装等等。此外,其还具有自定义参数和调整比对参数等高级设置。 该软件包已经成为生物医学研究中的重要工具之一,用于生物数据处理、统计学分析以及建立模型和预测。NCBI-BLAST-2.13.0-win64能够帮助研究人员更好的理解生物序列之间的相似性,从而推断其功能和进化关系。这对于进行生物大数据分析和快速挖掘生物信息,为生物医学研究提供更多帮助的重要性无法忽视。 ### 回答2: NCBI-BLAST-2.13.0 -win64 是一款开源软件,是 National Center for Biotechnology Information (NCBI) 提供的序列比对工具之一。该软件适用于 Windows 64 位操作系统,可以在命令行下运行。其中,BLAST 是 Basic Local Alignment Search Tool 的缩写,指的是基本局部比对搜索工具,常用于在大量的生物序列中寻找相似的序列。 NCBI-BLAST-2.13.0 -win64 支持多种输入文件格式,包括 FASTA、GenBank、EMBL 等。它可以对两种或多种序列之间进行 BLAST 分析,查找它们之间的相似性和差异性。与其他序列比对软件相比,NCBI-BLAST-2.13.0 -win64 具有高速度、高准确度、灵活性等特点。此外,它也可以进行多种参数的自定义设置,以适应不同的比对需求。 总之,NCBI-BLAST-2.13.0 -win64 是一款强大的生物信息学工具,可以帮助研究者在大量的生物序列数据中寻找相似的序列,从而推测它们的结构、功能、演化关系等重要信息,为生物学研究提供有力支持。 ### 回答3: ncbi-blast-2.13.0 -win64是一个基于NCBI平台开发的Blast程序的版本号,在Windows操作系统下可用。Blast是一种用于生物信息学研究的算法,用于比对和分析DNA、RNA和蛋白质序列。NCBI-Blast是由美国国家医学图书馆(National Library of Medicine)所提供的一个全球著名的互联网爬虫、文献检索和生物信息资源的网站。NCBI-Blast提供了多个版本,用于不同的平台和操作系统。NCBI-Blast-2.13.0 -win64是专门为Windows 64位操作系统设计开发的版本。它具有以下特点:可以快速比对大规模的DNA、RNA和蛋白质序列;提供多种比对算法,可以根据需要选择适合的算法;支持本地计算机和远程服务器,方便用户按照不同的需求进行使用。总之,NCBI-Blast-2.13.0 -win64是专门为方便Windows 64位用户利用Blast算法比对和分析生物序列而开发的一个工具,可以极大地提高生命科学研究的效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值