生物信息中常见的几种数据格式有:fasta、fastq、bam、sam、vcf、bed、gff。
参考:http://www.biotrainee.com/thread-42-1-1.html
FASTQ
参考:https://en.wikipedia.org/wiki/FASTQ_format
fastq格式是文本格式。它有对应序列字符的质量分数,出于简洁的目的用ASCII字符来表示,所以fastq格式常用于高通量测试数据的存储。
fastq格式常以四部分组成。
第一部分:序列名称。以 @ 开始紧接着是序列的标识符和可选择的描述信息,和fasta格式的头行很相似。
第二部分:序列碱基。是原始序列信息。
第三部分:以 + 开始,后面可再接与第一部分的相同的序列标识符或者描述信息。
第四部分:碱基的质量。以ASCII字符表示第二行碱基序列的测序质量。! 表示最低的质量而 ~ 表示最高质量。
[Bash shell]
纯文本查看 复制代码
1
2
3
4
|
@IL38_2670:1:42:1707:2025
/2
CTTTTTTTTTTTTTTTTTTTTTTTTTGTTCTTTTTTTCTTTTTTTTTTTTTTTT
+
())+22;;99-A0B=/=--<=?4+;*=*+A,A<?992()==9<9---=9?A@>@
|
附:格式转换代码:
fastq转换fasta格式:
[Bash shell]
纯文本查看 复制代码
1
|
zcat input_file.fastq.gz |
awk
'NR%4==1{printf ">%s\n", substr($0,2)}NR%4==2{print}'
> output_file.fa
|
FASTA
参考:
https://en.wikipedia.org/wiki/FASTA_format
fasta格式是生物信息最基本的文本格式,用来展示碱基序列或者氨基酸序列。fasta格式的简洁性有利于文本编辑工具和脚本语言如:Python,Rudy,Perl的编辑操作。
在fasta文件的第一行(header line)通常以";" 或者 ">"开头,用来分割不同的序列。
[Bash shell]
纯文本查看 复制代码