要使用程序对blast结果进行解析、分析,就必须对BLAST的结果形式有深入的了解,本篇文章将向你详细说明Blast结果的数据结构,供参考。这里的指的是blast默认的结果,也是我们应用最多的结果。
3.14.1. 结果文件的结构
一个BLAST的结果文件,大致结构如下:
每个blast结果文件都以固定的header开头,里面包含了BLAST程序名称,版本与Reference信息。接下来包含一个或多个Query,每个query包含以下内容:
Query information
Sequences producing significant alignments
Subjects
Query information是对一个query 序列的基本信息描述,Sequences producing significant alignments是对所有subjects的简要list。每个subjects是query序列在数据库中比对上的一条序列。
3.14.2. HEADER
每个blast结果文件都以固定的header开头,里面包含了BLAST程序名称,版本与Reference信息。

blast结果解读-header
3.14.3. QUERY
每个blast结果文件包含一个或多个Query,每个query包含以下内容:
Query information
Sequences producing significant alignments
Subjects

blast结果解读-Query
3.14.4. QUERY INFORMATION
Query information是对一个query 序列的基本信息描述。该部分包括
Name:Fasta序列对于序列描述的部分(见本文档section1.2部分说明)
Accession:接收号,或者location
Description:序列描述
Length:序列的长度
Database:用户使用的数据库信息
3.14.5. SEQUENCES PRODUCING SIGNIFICANT ALIGNMENTS
该处的信息是所有subjects的简要list。

blast结果解读-subjects list
3.14.6. SUBJECTS
每个subjects是query序列在数据库中比对上的一条序列。每个subject部分包括
Subject序列信息
一个或多个alignment
3.14.7. SUBJECT序列信息
Subject序列信息包括该序列的:
Name:Fasta序列对于序列描述的部分
Accession:接收号,或者location
Description:序列描述
Length:序列的长度

BLAST-subjects
3.14.8. ALIGNMENT
一个query序列和一个subject序列的比对结果,可能是一个或多个alignment,每个alignment包括如下信息,其中strand,frame和positives三项,随着所用blast程序的不同而有变动:
Score:281
Expect:2e-54
Percent_identity
Identities
bits :110
Length
Mismatches= Length – Identities
Gaps:为空时,Gaps=0
Strand (blastn)
Frame (blastx,tblastn,tblastx)
Positives (blastp, blastx,tblastn,tblastx)
Query_start
Query_end
Subject _start
Subject _end

BLAST-subjects
3.14.9. 数据结构总结
比对结果分三个层次
Query下面有一个或者多个Subject,一个Subject下面有多个Alignments。
Query 从“Query=” 开始到下一个 “Query=”或者文件结束
Subject 从“>”开始到下一个“>”或者“Query=”或者文件结束
Alignment 从“Score =”开始到下一个“Score =”或“>”或者“Query=”或者文件结束。

BLAST-数据结构