安装aspera和使用

一、(MobaXterm_Personal)安装aspera

 MobaXterm_Personal的~/shares文件下有已经下载的aspera,解压至~/Biosofts/

    mkdir ~/Biosofts/
##创建一个文件用于储存aspera的解压文件
    tar zxvf /disk1/shares/ibm-aspera-connect_4.0.2.38_linux.tar.gz -C ~/Biosofts/
##tar是解压命令,解压:.gz    tar zxvf FileName.tar.gz    解压:.zip    unzip FileName.zip
##/disk1/shares/    是存放ibm-aspera-connect_4.0.2.38_linux.tar.gz的目录
##-C    参数解压后文件存放位置(~/biosofts/)

再运行 ibm-aspera-connect_4.0.2.38_linux.sh

bash ibm-aspera-connect_4.0.2.38_linux.sh

配置环境变量:

echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc

二、预编译安装Aspera的linux版本到Ubuntu系统

wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.9/sratoolkit.2.10.9-ubuntu64.tar.gz

下载完成如图:

 解压(安装):

tar zxvf sratoolkit.2.10.9-ubuntu64.tar.gz -C ~/Biosofts/

配置环境变量:

echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc

echo 'export PATH=            :$PATH' >> ~/.bashrcc

aspera的使用:

SRA事NCBI旗下用于储存高通量测序数据的子库

SRA基本框架,SRA数据库的组织框架是基于 STUDY, SAMPLE, EXPERIMENT, RUN 四个概念构建的。

STUDY :研究课题/研究项目
SAMPLE :样本信息,通常以前缀 SRS,DRS,ERS 开头
EXPERIMENT : 实验信息, 一次实验包含了一个或多个样本进行一个多多个RUN的测序,通常以前缀 SRX,DRX,ERX 开头
RUN:RUN通俗理解就是测序仪运行一次产生的测序数据,是 SRA 里面最小的概念,该编号通常直接链接到对应某一个/对fastq下机的文件,通常以前缀 SRR,DRR,ERR 开头
 

编号的含义很简单:
第一个字母:表示样本最初被上传到的源数据库,NCBI会同步EBI和DDBJ的数据,同步后会保留源数据的来源信息。

S – NCBI’s SRA database  
E – EBI’s database  
D – DDBJ database  


第二个字母:固定为"R",代表Read
第三个字母:数据的类型,可以是项目、样本、实验或RUN

R – Run  
X – Experiment  
S – Sample  
P – Project / study 

SRA数据下载方式

1)通过官网提供的 SRA-Toolkit 工具进行下载---aspera

2)直接wget/curl下载。

aspera进行下载:

SRR/DRR/ERR检索号列表, 例如此处我们下载SRR_Acc_List.txt文件内的所有ERR数据:

prefetch SRR6232298
nohup prefetch -O . $(<SRR_Acc_List.txt) &   
##此处的 nohup + &  用于放入后台下载,避免关闭终端导致下载中断
##命令末尾加&事后台运行,但是终端推出命令终止
##nohup永久运行,但是没有放后台运行的意思
##-O  指定目录    -o  指定文件
##.当前目录    &()返回括号内命令结果    

 

 

 

 

 

        解压SRA文件:

fastq-dump --gzip --split-files /disk1/shares/SRR6208854.sra
##/disk1/shares/SRR6208854.sra 要解压SRA文件的绝对路径
##命令:fastq-dump解压SRA文件    建议 --gzip 压缩成zip占用空间少    
##单端测序 (SE) 不用加--split-files    双端测序 (PE)加--split-files

批量解压文件

for i in *sra; do fastq-dump --gzip --split-files $i; done

1. aspera在下载其他数据库(如EBI)的数据时,仍然是十分不错的工具

2. 下载完之后,可以用如下命令批量解压:

for f in *.sra
do
nohup fastq-dump --split-3 $f &
done
--split-3

 
使用fastq-dump拆分PE文件时有两种常用的参数,--split-files 和--split-3 ,很奇怪,查到以下解释:

–split-spot: 将双端测序分为两份,但是都放在同一个文件中 
–split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃 
–split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值