NCBI下载原始测序数据
- 在ncbi里面的SRRXXXX下面找到data access
- 下载之后是SRA格式,是二进制文件,这时候就要用到SRAToolKIT
~/sratoolkit/bin/fastq-dump -I --split-files SRR390728
#生成两个fastq文件(--split-files),其中包含“ .1”和“ .2”读取对(-I),用于配对端数据
3.这时候得到的是fastq格式的数据,再用工具转换成fasta格式的文件
1 linux下直接: sed -n '1~4s/^@/>/p;2~4p' in.fastq > out.fasta
2 perl: perl -ne 'y/@/>/;print($_.<>)&&<>&&<>' your_file.fastq > output_file.fasta
3 seqtk包下载(bioconda),seqtk seq -A input_file.fastq > output_file.fasta
4 在线网址: https://test.galaxyproject.org/
#这边用的是方法3
这样就会把SRA格式的文件变为read1和read2两个文件,后续再进行过滤。