Fastq与Fasta格式

最新推荐文章于 2024-05-24 10:05:25 发布

ltbylc

最新推荐文章于 2024-05-24 10:05:25 发布

阅读量1.1w

点赞数 1

分类专栏：生物信息学文章标签： Fastq

生物信息学专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、关于Fastq

FASTQ是基于文本的，保存生物序列（通常是核酸序列）和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示，最初由Sanger开发，目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的事实标准。

二、Fastq的格式

FASTQ文件中每个序列通常有四行：第一行，序列标识以及相关的描述信息，以‘@’开头；第二行是序列；第三行以‘+’开头，后面是序列标示符、描述信息，或者什么也不加；第四行，是质量信息，和第二行的序列相对应，每一个序列都有一个质量评分，根据评分体系的不同，每个字符的含义表示的数字也不相同。

例如

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

三、关于Fasta

Fasta格式也称为Pearson格式，是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释。

四、Fasta格式

Fasta格式首先以大于号“>”开头，接着是序列的标识符；换行后是序列的描述信息。换行后是序列信息，文件每行的字母一般不应超过80个字符。序列中允许存在空格，换行，空行，直到下一个大于号或文件结束，表示该序列的结束。

>gi|46575915|ref|NM_008261.2| Mus musculus hepatic nuclear factor 4, alpha (Hnf4a), mRNA
GGGACCTGGGAGGAGGCAGGAGGAGGGCGGGGACGGGGGGGGCTGGGGCTCAGCCCAGGGGCTTGGGTGG
CATCCTGGGCCGGGCAGGACAGGGGGCTAAGGCGTGGGTAGGGGAGAATGCGACTCTCTAAAACCCTTGC
CGGCATGGATATGGCCGACTACAGCGCTGCCCTGGACCCAGCCTACACCACCCTGGAGTTTGAAAATGTG
CAGGTGTTGACCATGGGCAATGACACGTCCCCATCTGAAGGTGCCAACCTCAATTCATCCAACAGCCTGG
GCGTCAGTGCCCTGTGCGCCATCTGTGGCGACCGGGCCACCGGCAAACACTACGGAGCCTCGAGCTGTGA
CGGCTGCAAGGGGTTCTTCAGGAGGAGCGTGAGGAAGAACCACATGT

ltbylc

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Fastq与Fasta格式

一、关于FastqFASTQ是基于文本的，保存生物序列（通常是核酸序列）和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示，最初由Sanger开发，目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的事实标准。二、Fastq的格式
复制链接

扫一扫

专栏目录