什么是ieee通用数据格式_从零开始生物信息学(7):常用数据格式(1)-CSDN博客

从零开始生物信息学(7):常用数据格式(1)

前言

今天我们来谈谈生物信息学常用的数据格式，由于不同数据的差异性非常大，需要统一的格式来记录数据的数据类型，数据来源，数据结构等等，便于数据的可重复利用，因此，熟悉不同数据的常用数据格式也是非常重要的。

再说数据格式之前，我们知道生物信息学的数据库存储这各种各样的数据类型，例如之前说过的数据库，也可以分成两大类，一级数据库和二级数据库：

一级数据库：数据来源于实验操作所得到的原始数据结果，例如测序得到的测序结果序列或者是蛋白质通过X射线得到的三维立体结构，这些数据一般有的信息就是数据来源，类型等基本信息，例如，NCBI中的GenBank数据库。
二级数据库：二级数据库的数据是在一级数据库的信息基础上进行了计算加工处理并增加了许多人为的注释而构成的，比如增加了基因注释信息等等。

那么如果需要对数据库信息进行进一步利用，就产生了大量统一格式的数据，便于进一步操作，这里主要介绍以下几种数据格式：

FASTA
FASTQ
GFF
bed
sam
bam
vcf

FASTA

FASTA格式是一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示，且允许在序列前添加序列名及注释。FASTA序列格式是Blast工具常用的组织数据的基本格式，无论是数据库还是查询序列，大多数情况都使用FASTA序列格式。

下面给出一个FASTA文件的例子，这是我们人类一个名为EGFR基因的部分序列，格式如下：

>ENSMUSG00000020122|ENSMUST00000138518
CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGT
TATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGT

可以看到，格式首先以大于号“>”开头，接着是序列的标识符“ENSMUSG00000020122”，然后是序列的描述信息。换行后是序列信息，标准核苷酸符号一般用大写字母。文件中和每一行都不要超过80个字符。序列中允许空格，换行，空行，直到下一个大于号，表示该序列的结束，下个序列开始。

一般而言，FASTA格式的第一行没有头信息并没有严格的约束，因此会造成很多混乱，比如同一个序列的头信息在不同数据库都不同，后来，就有了不成文的规定，大于号后面一般接的就是序列名字，然后有个|符号，再接注释信息，例如长度或者序列类型等等。

下面是部分数据库的标识符：

| 一个普通标题 | 一个普通标题 | 一个普通标题 |
| ------ | ------ | ------ |
| 短文本 | 中等文本 | 稍微长一点的文本 |
| 稍微长一点的文本 | 短文本 | 中等文本 |

| 数据库名称 | 标识符 | | ---------------------------- | ------------------------- | | GenBank | gb|accession|locus | | EMBL Data Library | emb|accession|locus | | DDBJ, DNA Database of Japan | dbj|accession|locus | | NBRF PIR | pir||entry | | Protein Research Foundation | prf||name | | SWISS-PROT | sp|accession|entry name | | Brookhaven Protein Data Bank | pdb|entry|chain | | Patents | pat|country|number | | GenInfo Backbone Id | bbs|number | | General database identifier | gnl|database|identifier | | NCBI Reference Sequence | ref|accession|locus | | Local Sequence identifier | lcl|identifier |

FASTQ

FASTQ同样是一种基于文本的存储生物序列和对应碱基（或氨基酸）质量的文件格式，后缀名通常为.fastq 或者.fq，但是与fasta不相同的是，它除了存储序列本身外还存储了序列中每个单元所对应的质量分数，所以fastq格式通常用于高通量测试数据的存储。早期是有Sanger机构开发的，但是现在已经演变成一个高通量测序的标准了。

FASTQ的一个数据样式如下：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

第一行是@字母开头的序列标识符，类似于FASTA的第一行信息
第二行是原始的序列信息
第三行是+字母开头，后面是序列标识符或者是描述信息，或者什么都不加。
第四行是质量信息，对于每一条序列，其每一个碱基都有一个对应的测序质量值，和第二行的序列相对应，根据评分体系的不同，每个字符的含义表示的数字也不相同，通常用ASCII码的排序来表示质量值，下面是每个质量值排列，从左向右递增：

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxyz{|}~

GFF

GFF(General Feature Format)是一种用于描述基因或者其它序列元素的文件格式，简单来说是用于基因或者基因组注释的一个文件格式，GFF有几个版本，早期的第Version 2和现在的Version 3. Version 2 是由Sanger机构所制定的，而Version 3是由Sequence Ontology Project制定。正是由于有统一的格式来表示基因等元素，使得GFF格式的文件被广泛的使用与mapping与基因组数据可视化方面，因为它是一种简单的、方便的对于DNA、RNA以及蛋白质序列的特征进行描述的一种数据格式，比如序列的那里到那里是基因，已经成为序列注释的通用格式，比如基因组的基因预测，许多软件都支持输入或者输出GFF格式。

这里说下最新的GFF3，也是目前最流行的GFF文件新标准，GFF3文件中每一行为基因组的一个属性，分为9列，以TAB分开：

以下是一个样例：

##gff-version 3
ctg123  .  exon  1300  1500  .  +  .  ID=exon00001
ctg123  .  exon  1050  1500  .  +  .  ID=exon00002
ctg123  .  exon  3000  3902  .  +  .  ID=exon00003
ctg123  .  exon  5000  5500  .  +  .  ID=exon00004
ctg123  .  exon  7000  9000  .  +  .  ID=exon00005

然后每一列的属性名称如下：

| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | | ------------------ | ----------------- | ------------ | ---------------- | -------------- | ----- | ------ | ----- | ---------- | | reference sequence | annotation source | feature type | start coordinate | end coordinate | score | strand | frame | attributes |