一、(MobaXterm_Personal)安装aspera
MobaXterm_Personal的~/shares文件下有已经下载的aspera,解压至~/Biosofts/
mkdir ~/Biosofts/
##创建一个文件用于储存aspera的解压文件
tar zxvf /disk1/shares/ibm-aspera-connect_4.0.2.38_linux.tar.gz -C ~/Biosofts/
##tar是解压命令,解压:.gz tar zxvf FileName.tar.gz 解压:.zip unzip FileName.zip
##/disk1/shares/ 是存放ibm-aspera-connect_4.0.2.38_linux.tar.gz的目录
##-C 参数解压后文件存放位置(~/biosofts/)
再运行 ibm-aspera-connect_4.0.2.38_linux.sh
bash ibm-aspera-connect_4.0.2.38_linux.sh
配置环境变量:
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
二、预编译安装Aspera的linux版本到Ubuntu系统
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.9/sratoolkit.2.10.9-ubuntu64.tar.gz
下载完成如图:
解压(安装):
tar zxvf sratoolkit.2.10.9-ubuntu64.tar.gz -C ~/Biosofts/
配置环境变量:
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
echo 'export PATH= :$PATH' >> ~/.bashrcc
aspera的使用:
SRA事NCBI旗下用于储存高通量测序数据的子库
SRA基本框架,SRA数据库的组织框架是基于 STUDY, SAMPLE, EXPERIMENT, RUN 四个概念构建的。
STUDY :研究课题/研究项目
SAMPLE :样本信息,通常以前缀 SRS,DRS,ERS 开头
EXPERIMENT : 实验信息, 一次实验包含了一个或多个样本进行一个多多个RUN的测序,通常以前缀 SRX,DRX,ERX 开头
RUN:RUN通俗理解就是测序仪运行一次产生的测序数据,是 SRA 里面最小的概念,该编号通常直接链接到对应某一个/对fastq下机的文件,通常以前缀 SRR,DRR,ERR 开头
编号的含义很简单:
第一个字母:表示样本最初被上传到的源数据库,NCBI会同步EBI和DDBJ的数据,同步后会保留源数据的来源信息。
S – NCBI’s SRA database
E – EBI’s database
D – DDBJ database
第二个字母:固定为"R",代表Read
第三个字母:数据的类型,可以是项目、样本、实验或RUN
R – Run
X – Experiment
S – Sample
P – Project / study
SRA数据下载方式
1)通过官网提供的 SRA-Toolkit 工具进行下载---aspera
2)直接wget/curl下载。
aspera进行下载:
SRR/DRR/ERR检索号列表, 例如此处我们下载SRR_Acc_List.txt文件内的所有ERR数据:
prefetch SRR6232298
nohup prefetch -O . $(<SRR_Acc_List.txt) &
##此处的 nohup + & 用于放入后台下载,避免关闭终端导致下载中断
##命令末尾加&事后台运行,但是终端推出命令终止
##nohup永久运行,但是没有放后台运行的意思
##-O 指定目录 -o 指定文件
##.当前目录 &()返回括号内命令结果
解压SRA文件:
fastq-dump --gzip --split-files /disk1/shares/SRR6208854.sra
##/disk1/shares/SRR6208854.sra 要解压SRA文件的绝对路径
##命令:fastq-dump解压SRA文件 建议 --gzip 压缩成zip占用空间少
##单端测序 (SE) 不用加--split-files 双端测序 (PE)加--split-files
批量解压文件
for i in *sra; do fastq-dump --gzip --split-files $i; done
1. aspera在下载其他数据库(如EBI)的数据时,仍然是十分不错的工具
2. 下载完之后,可以用如下命令批量解压:
for f in *.sra
do
nohup fastq-dump --split-3 $f &
done
--split-3
使用fastq-dump拆分PE文件时有两种常用的参数,--split-files 和--split-3 ,很奇怪,查到以下解释:
–split-spot: 将双端测序分为两份,但是都放在同一个文件中
–split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃
–split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里