安装aspera和使用

蹦蹦虎862

已于 2022-10-13 11:14:11 修改

阅读量1.5k

点赞数 1

文章标签： linux 服务器运维

于 2022-10-04 16:47:49 首次发布

本文链接：https://blog.csdn.net/qq_65701798/article/details/127159259

版权

一、（MobaXterm_Personal）安装aspera

MobaXterm_Personal的~/shares文件下有已经下载的aspera，解压至~/Biosofts/

    mkdir ~/Biosofts/
##创建一个文件用于储存aspera的解压文件
    tar zxvf /disk1/shares/ibm-aspera-connect_4.0.2.38_linux.tar.gz -C ~/Biosofts/
##tar是解压命令，解压：.gz    tar zxvf FileName.tar.gz    解压：.zip    unzip FileName.zip
##/disk1/shares/    是存放ibm-aspera-connect_4.0.2.38_linux.tar.gz的目录
##-C    参数解压后文件存放位置（~/biosofts/）

再运行 ibm-aspera-connect_4.0.2.38_linux.sh

bash ibm-aspera-connect_4.0.2.38_linux.sh

配置环境变量：

echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc

二、预编译安装Aspera的linux版本到Ubuntu系统

wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.9/sratoolkit.2.10.9-ubuntu64.tar.gz

下载完成如图：

解压（安装）：

tar zxvf sratoolkit.2.10.9-ubuntu64.tar.gz -C ~/Biosofts/

配置环境变量：

echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc

echo 'export PATH= :$PATH' >> ~/.bashrcc

aspera的使用：

SRA事NCBI旗下用于储存高通量测序数据的子库

SRA基本框架，SRA数据库的组织框架是基于 STUDY, SAMPLE, EXPERIMENT, RUN 四个概念构建的。

STUDY ：研究课题/研究项目
SAMPLE ：样本信息，通常以前缀 SRS,DRS,ERS 开头
EXPERIMENT : 实验信息, 一次实验包含了一个或多个样本进行一个多多个RUN的测序，通常以前缀 SRX,DRX,ERX 开头
RUN：RUN通俗理解就是测序仪运行一次产生的测序数据，是 SRA 里面最小的概念，该编号通常直接链接到对应某一个/对fastq下机的文件，通常以前缀 SRR,DRR,ERR 开头

编号的含义很简单：
第一个字母：表示样本最初被上传到的源数据库，NCBI会同步EBI和DDBJ的数据，同步后会保留源数据的来源信息。

S – NCBI’s SRA database  
E – EBI’s database  
D – DDBJ database

第二个字母：固定为"R"，代表Read
第三个字母：数据的类型，可以是项目、样本、实验或RUN

R – Run  
X – Experiment  
S – Sample  
P – Project / study

SRA数据下载方式

1）通过官网提供的 SRA-Toolkit 工具进行下载---aspera

2）直接wget/curl下载。

aspera进行下载：

SRR/DRR/ERR检索号列表, 例如此处我们下载SRR_Acc_List.txt文件内的所有ERR数据：

prefetch SRR6232298
nohup prefetch -O . $(<SRR_Acc_List.txt) &   
##此处的 nohup + &  用于放入后台下载，避免关闭终端导致下载中断
##命令末尾加&事后台运行，但是终端推出命令终止
##nohup永久运行，但是没有放后台运行的意思
##-O  指定目录    -o  指定文件
##.当前目录    &()返回括号内命令结果

解压SRA文件：

fastq-dump --gzip --split-files /disk1/shares/SRR6208854.sra
##/disk1/shares/SRR6208854.sra 要解压SRA文件的绝对路径
##命令：fastq-dump解压SRA文件    建议 --gzip 压缩成zip占用空间少    
##单端测序 (SE) 不用加--split-files    双端测序 (PE)加--split-files

批量解压文件

for i in *sra; do fastq-dump --gzip --split-files $i; done

1. aspera在下载其他数据库（如EBI）的数据时，仍然是十分不错的工具

2. 下载完之后，可以用如下命令批量解压：

for f in *.sra
do
nohup fastq-dump --split-3 $f &
done
--split-3

使用fastq-dump拆分PE文件时有两种常用的参数，--split-files 和--split-3 ，很奇怪，查到以下解释：

–split-spot: 将双端测序分为两份,但是都放在同一个文件中
–split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃
–split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里