目录
前言
- 如果有公司提供的测序数据,包含fastq测序文件,便可直接进行
- 公共数据库下载数据:
- SRA Toolkit 进行下载NCBI数据
- aspera 工具下载EBI数据
- wget, curl 命令直接下载
- grabseqs 工具下载
一、NCBI官方的 SRA Toolkit 进行下载
获取GEO编号,比如GSE100939,点击页面下方的SRA Run Selector。
进入SRA Run Seletor
- 结合原文献,勾选自己需要分析的样本数据;
- 点击Accession list,下载后得到,SRR_Acc_List.txt;
- 也可点击Metadata,下载后得到,SraRun Table.txt。
这是本次示例所要下载的数据:
SRR5812059
SRR5812058
SRR5812057
SRR5812056
SRR5812055
SRR5812054
prefetch 下载数据
##单个样本下载
prefetch SRR5812059 -O output #output替换为你想下载数据的路径
#21:06开始加载,23:28才下载完成,即一个样本测序数据用时2h22min
## 批量下载数据
prefetch -O output --option-file SRR_Acc_List.txt ##SRR_Acc_List.txt是需要下载的样本列表;output是下载数据存储的路径
二、aspera 工具下载
- aspera 软件安装
##下载 aspera 软件,在aspera 官网界面找到IBM Aspera Connect,找到Linux版本链接下载
##解压
tar zxvf ibm-aspera-connect_4.1.3.93_linux.tar.gz
##运行脚本
bash ibm-aspera-connect_4.1.3.93_linux.sh
#安装后会提示默认的安装地址,进入后查看是否有.aspera文件夹
cd # 进入安装地址
ls -a # 如果看到.aspera文件夹,代表安装成功
# 永久添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc && cp ~/.bashrc ~/.bash_profile
source ~/.bashrc ~/.bash_profile
##或者直接conda安装
- 查看密钥
#查看密钥,一定要明确软件安装的位置
$ find ./ -name asperaweb_id_dsa.openssh
./.aspera/connect/etc/asperaweb_id_dsa.openssh
- 下载数据
ENA数据库获取下载链接,网址
如下载编号:PRJNA393461
选择要下载的选项(我们这里使用的工具是aspera,所以选择该选项,还有其他下载工具选择)
选择TSV下载
在操作以下代码之前,需要将上述run_accession相关内容即fastq_aspera字样删除,仅剩下载链接的文本
outputdir=/home/ghost/LINE_seq/rawdata_aspera/
cat filereport_read_run_PRJNA393461_tsv.txt |while read id;
do echo "ascp -k 1 -QT -l 300m -P33001 -i /home/ghost/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}";
done >sra.download.sh
nohup bash sra.download.sh >sra.download.log &
#平均每个10~30分钟左右
① -k :表示断点续传,通常设置为1即可
② -Q:启用-Q或-QQ传输策略,使用-l和-m来设定目标和最低传输速度。-T:取消加密传输。若不添加此参数,可能会下载不了
③ -l :设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。若不设置该参数,则一般可达到10m/s的速度
④-i :输入私钥,安装后有在目录 ~/.aspera/connect/etc/下有几个私钥,一般处于miniconda目录下
⑤:–host:ftp的host名,NCBI的为http://ftp-private.ncbi.nlm.nih.gov;EBI的为http://fasp.sra.ebi.ac.uk。
⑥:–user:用户名,NCBI的为anonftp,EBI的为era-fasp。
⑦:–mode:选择模式,上传为 send,下载为 recv。
- 结果文件:
将所选的6个.fastq文件都下载了,但根据download.log文件的报错提示,最后一个文件下载中断,需要单独重新下载
download.log文件会记录下载文件过程及相关报错