一、查找数据信息
在文章中找到获取原始数据的相关描述,访问相应的数据库进行下载(如下图所示)。
二、下载数据
方法一:使用sratoolkit下载
从SRA Run Selector下载所有样本SRR号(SRR_Acc_List.txt)。
下载命令:
$ prefetch --option-file SRR_Acc_List.txt
这种方式下载的数据格式为.sra,需要转为.fastq。
$ for i in $(find . -name '*.sra');do fastq-dump --gzip --split-files $i;done
方法二:使用aspera下载
这种方式可以直接下载.fastq文件。
1)在ENA数据库搜索数据号,下载包含aspera链接的文件。
2)简单处理链接文件并下载数据
$ for i in $(cut -f8 link.file |sed 's/;/\n/g' | tail -n +2);do ascp -v -k 1 -QT -l 300m -P33001 -i asperaweb_id_dsa.openssh era-fasp@${i} ./;done