Ubuntu系统下用fastq-dump将sra文件转换为fastq文件时遇到的问题。
我在进行RNA测序文件分析时遇到了以下问题,想向各位生信大神请教一下,如能解答,不胜感激!
对于以下网址中的sra文件
https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR15431749
网页截图如下
这张图中Layout处显示了PAIRED,但是绿色条带上方又提示This run has 1 read per spot,而我运行
fastq-dump –gzip –split -3 SRR15431749.sra
命令后,只得到了一个SRR15431749.fastq.gz文件,所以我就按照单端测序的流程继续分析了。
我想问一下,SRR15431749.sra这个文件是不是单端测序文件?我按照单端测序去进行后续的计算是否正确?
请各位大佬再看下面一张图,这是另一个样本的数据,网址为
https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR15431750
这张图中Layout处显示了PAIRED,但是绿色条带上方又提示This run has variable number of reads per spot,而我运行
fastq-dump –gzip –split -3 SRR15431750.sra
命令后,得到了两个SRR15431749_1.fastq.gz, SRR15431749_2.fastq.gz文件和一个SRR15431749.fastq.gz文件,前两个文件很小,后面一个很大,如下图所示,我对SRR15431749_1.fastq.gz, SRR15431749_2.fastq.gz文件这两个文件继续进行双端测序的后续分析,但显然是不对的,因为最后得出的结果很少。
后面我又从网上查找得知,–split-3 这个命令会将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件里。
请问各位大佬这个样本是单端测序吗?那我是不是可以理解为这个样本的信息主要集中在这个SRR15431749.fastq.gz文件中?那我直接对该文件进行单端测序的后续分析是否正确的?当然也可以对另外两个SRR15431749_1.fastq.gz, SRR15431749_2.fastq.gz小文件进行双端测序,并且与上面的单端测序在R语言中进行整合,这样结果是否会更好?