NGS之数据格式

最新推荐文章于 2024-05-23 09:32:44 发布

Doris_xixi

最新推荐文章于 2024-05-23 09:32:44 发布

阅读量2.5k

点赞数 1

分类专栏：生信基础

本文链接：https://blog.csdn.net/Doris_xixi/article/details/80935603

版权

本文介绍了生物信息学中常用的NGS数据格式，包括FASTQ、FASTA、SAM、BAM和VCF。FASTQ用于存储高通量测序数据的质量分数，FASTA则简洁地展示碱基序列，SAM记录短序列片段的比对结果，BAM是SAM的二进制形式，VCF则用于表示基因突变信息。

摘要由CSDN通过智能技术生成

生物信息中常见的几种数据格式有:fasta、fastq、bam、sam、vcf、bed、gff。

参考：http://www.biotrainee.com/thread-42-1-1.html

FASTQ

参考：https://en.wikipedia.org/wiki/FASTQ_format

fastq格式是文本格式。它有对应序列字符的质量分数，出于简洁的目的用ASCII字符来表示，所以fastq格式常用于高通量测试数据的存储。

fastq格式常以四部分组成。

第一部分：序列名称。以 @ 开始紧接着是序列的标识符和可选择的描述信息，和fasta格式的头行很相似。

第二部分：序列碱基。是原始序列信息。

第三部分：以 + 开始，后面可再接与第一部分的相同的序列标识符或者描述信息。

第四部分：碱基的质量。以ASCII字符表示第二行碱基序列的测序质量。！表示最低的质量而～表示最高质量。

[Bash shell] 纯文本查看复制代码

 
         @IL38_2670:1:42:1707:2025 
         /2 
        
         CTTTTTTTTTTTTTTTTTTTTTTTTTGTTCTTTTTTTCTTTTTTTTTTTTTTTT 
        
         + 
        
         ())+22;;99-A0B=/=--<=?4+;*=*+A,A<?992()==9<9---=9?A@>@

附：格式转换代码：

fastq转换fasta格式:

[Bash shell] 纯文本查看复制代码

1	`zcat input_file.fastq.gz \|` `awk` `'NR%4==1{printf ">%s\n", substr($0,2)}NR%4==2{print}'` `> output_file.fa`

FASTA

参考： https://en.wikipedia.org/wiki/FASTA_format

fasta格式是生物信息最基本的文本格式，用来展示碱基序列或者氨基酸序列。fasta格式的简洁性有利于文本编辑工具和脚本语言如：Python,Rudy,Perl的编辑操作。

在fasta文件的第一行（header line）通常以";" 或者 ">"开头，用来分割不同的序列。

[Bash shell] 纯文本查看复制代码

最低0.47元/天解锁文章

Doris_xixi

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录