生物信息学常见的数据格式有哪些？

cling5899

已于 2023-04-17 19:04:12 修改

阅读量1k

点赞数

文章标签：学习

于 2023-04-17 15:22:02 首次发布

本文链接：https://blog.csdn.net/dunghill_cock/article/details/130200989

版权

本文介绍了生物信息学中常见的数据格式，包括FASTA、FASTQ、BAM、SAM、CRAM、SRA、VCF、GFF和GTF等。FASTA用于存储序列数据，FASTQ则包含测序质量得分；BAM、SAM和CRAM是用于存储序列比对数据的文件格式，SRA是存储二代测序原始数据的数据库；VCF用于存储基因序列变异，GFF和GTF则用于基因组注释。这些格式各有特点，适应不同的生物数据需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

common file formats in bioinformatics

common file formats in bioinformatics

Bioinformatic File Types & Their Use Cases | Form Bio

最初，简单的文本文件(比如Txt 文件)用于存储序列数据使用单核苷酸或氨基酸代码。

就比如

ATCGNNNRYSW

但是纯文本信息不能对序列的染色体、质量、功能等信息进行注释，所以需要开发一些对应的格式

The Different Bioinformatics File Types
Why are There so Many Different Types?
File Formats and BLAST
Conclusion
File Format FAQs
References

The Different Bioinformatics File Types

FASTA

fasta格式，生物信息学中的标准文件格式，发明于1988年，用来进行 DNA 或蛋白质序列的敏感序列比对
fasta格式，使用核苷酸或氨基酸单字母来表示DNA或蛋白质序列
fasta格式，第一行是序列标识符，前面有一个“>”，接上序列信息，公共数据库里有标准的格式。第二行就是核苷酸或氨基酸的单字母来表示序列，由于早期DECVCT的终端，一行字符的数量有限，所以每行Fasta字符数一般限制在80字符以内。
nucleic acids (.fna)核酸
nucleotide coding regions (.ffn)核酸编码区
amino acids (.faa)氨基酸
non-coding RNAs (.frn)非编码RNA
fasta文件可以包含一个或多个序列，ClustalW等工具可以使用带有多个序列的FASTA文件来生成对齐

FASTQ

FASTQ格式是一种保存生物序列（通常为核酸序列）及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。该格式最初由维尔康姆基金会桑格研究所开发，旨在将FASTA格式序列及其质量数据集成在一起。而目前，FASTQ格式已经成为了保存高通量测序结果的事实标准。
next-generation sequencing二代测序的发明，开发了FASTQ格式
第一行以@开头，之后为序列的标识符以及描述信息（与FASTA格式的描述行类似），标本格式和Illumina测序仪相关，包括唯一的仪器名称、流池通道等。
第二行为序列信息，和FASTA一样
第三行以+开头，之后可以再次加上序列的标识及描述信息（可选）
第四行为质量得分信息，与第二行的序列相对应，长度必须与第二行相同
.fastq, .sanfastq, or .fq都是FASTQ

 从左到右代表从低到高的质量得分
 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

所以，FASTQ的序列信息一般就是一行结束，最初的时候桑格那边用过多行，但是信息提取不方便

Q= -log10p

Q= 20，p=0.01，碱基的精确度就是99%

假设某一核苷酸对应的第四行质量信息是“5”，按照上表换成10进制就是53，如果采用的是Sanger测序，那采用的就是Phread+33，Q = 53 - 33 = 20

除了Phread+33，还有Solexa+64等等

preload

Alignment formats对齐格式

BAM

生信数据文件常见格式介绍-2 · XTAO Achelous

BAM文件(扩展名为. BAM)与SAM文件密切相关，SAM文件是用制表符分隔的文本文件，用于存储序列对齐数据。BAM文件格式优于SAM文件格式的优点是，它是一个压缩的二进制版本，大小更小，可以索引，使它们成为序列比对信息存储的理想选择，并首选于整合基因组学查看器。

BAM包含一个头和一个主体，标头存储有关序列的信息，前面有一个“@”符号。主体包含关于每个序列如何与特定的参考序列对齐的信息
每个对齐行包括11个数据字段，包括Phred评分、描述对齐的字符串(称为CIGAR)和其他元数据。

SAM

SAM文件代表序列比对/MAP，并以. SAM文件扩展名表示，最初源自一款名为SAMtools的生物信息学软件，这是一款用于查看比对的开源程序。

sam 文件头部信息以@ 作为开头，对比对结果的meta信息进行记录，主要涵盖了文件标准格式版本（VN）、比对中使用的参考序列信息（SQ）、测序数据分组信息（RG）、比对或后期处理使用的程序信息（PG）等。
sam文件的比对信息中，每一行是由固定的11列的组成的。其信息内容见下表：每行可以追加可选信息。该部分信息以TAG:TYPE:VALUE 形式存储

sam-file-demo

data-compression

从SAM压缩到BAM

CRAM

CRAM文件是另一种与BAM文件格式相关的文件类型，它是BAM文件的重新构造版本，支持无损压缩

SRA⭐️

SRA（Sequence ReadArchive）数据库是用于存储二代测序的原始数据，包括 454，Illumina，SOLiD，IonTorrent，Helicos 和 CompleteGenomics。除了原始序列数据外，SRA现在也存在raw reads在参考基因的比对信息。

根据SRA数据产生的特点，将SRA数据分为四类：

Studies– 研究课题
Experiments– 实验设计
Runs– 测序结果集
Samples– 样品信息

SRA中数据结构的层次关系为：Studies->Experiments->Samples->Runs.

Studies是就实验目标而言的，一个study 可能包含多个Experiment。
Experiments包含了Sample、DNA source、测序平台、数据处理等信息。
一个Experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads。

SRA数据库用不同的前缀加以区分：

ERP或SRP表示Studies；
SRS 表示 Samples；
SRX 表示 Experiments；
SRR 表示 Runs；

Stockholm formats斯德哥尔摩格式

VCF

VCF (Variant Calling Format; file extension .vcf) files可变呼叫格式;文件扩展名为.vcf)文件存储基因序列变异，如单核苷酸多态性(SNPs)，并用于基因分型项目。它包含一个以“##”字符串开头的元数据头。VCF文件的最佳实践建议在头文件中描述正文中使用的INFO、FILTER和FORMAT条目。

标题后面是主体，由8个必列组成，每个标识符对应一个列

Generic feature formats通用特性格式

GFF

A GFF (general feature format; file extension .gff2 or .gff3) 一种GFF(一般特征格式;文件扩展名。gff2或。gff3)描述了组成基因的各种序列元素，是注释基因组的标准方法它定义了GFF文件主体中基因的特征，包括转录本、调控区域、未翻译区域、外显子、内含子和编码序列。与VCF一样，它使用带有“##”字符串的头区域来包含元数据。