分析hhr文件
一、
1.Summary hit list
列表按 ‘Prob’ 排列。
No
:模板索引
Hit
:模板名称
Prob
:模板是一个true positive的概率。对于一个true positive,考虑了ss
列的二级结构得分,以及Score
列的原始得分。true positives被定义为全局同源或者至少部分同源,因此在结构上局部相似。更准确地说,后一个标准要求查询和hit之间的MAXSUB得分至少为0.1。在几乎所有的情况下,结构相似性都是由于查询和模板之间的全局或局部同源性。
E-value
:在扫描数据库时,e值给出了false positives(错误hits)的平均次数,其分数比模板的分数要高。这是一种可靠性度量:接近0的e值表示非常可靠的命中,e值为10意味着在数据库中预计会发现大约10个错误的命中,至少有这么好的得分。注意,计算e值和P值时没有考虑到二级结构!
P-value
:p值是e值除以数据库中的序列数。它是在两两比较中,一个错误的命中至少会得到这么好的分数的概率。
Score
:原始评分通过维特比HMM-HMM比对计算,不包括二级结构评分。它是对齐的配置文件列的相似性的总和减去特定位置的gap惩罚(以位为单位)。列相似度评分是原始HHsearch论文(Soding, Bioinformatics 2005)中描述的概率对数和评分(以2为底)。gap惩罚是状态转移概率的log2,例如从匹配状态到插入或删除到匹配状态。
SS
:二级结构得分。该分数告诉您PSIPRED预测的(3状态)或实际的DSSP确定的(8状态)二级结构序列彼此之间的一致性如何。PSIPRED置信度值用于评分,低置信度获得较少的统计权重。
Cols
:HMM-HMM对齐方式中对齐的“匹配”列的数量。
Query HMM
:查询HMM中对齐的匹配状态的范围。
Template HMM
:模板HMM中对齐的匹配状态的范围。
2.HMM-HMM pairwise alignments
Identities
:查询序列和模板序列对齐残基对的百分比。
Similarity
:相似度是查询和模板主序列中对齐的残差对之间替换分数的算术平均值。替换矩阵与用于计算数据库HMMs的伪计数的矩阵相同,默认情况下是Gonnet矩阵。
Sum_probs
:Sum_probs值是所有对齐的匹配状态对的后验概率的总和。这些概率是由前后向算法计算的。(它们被计算最终对齐的最大精度算法所使用。)当模板HMM具有来自DSSP的二级结构注释时,sum_probs值只在模板具有有效DSSP状态而不是-
的对齐对上运行。-
表示模板中残基的结构坐标缺失。对于同源建模,这种对已知结构模板的特殊处理使Sum_probs
成为一个用于对模板进行排序的有用特征。
ss_dssp
:由DSSP确定的二级结构。
ss_pred
:由PSIPRED预测的二级结构。
如果PSIPRED置信度值在0.7到1.0之间,则预测的二级结构状态以大写字母显示,对于较低的置信度值,它们以小写字母给出。
consensus sequence对保守型较高的列使用大写字母,对于部分保守的列使用小写字母。不保守的列使用~
标记。粗略地说,出现概率大于60%的氨基酸被写为大写字母,大于40%的被写为小写字母,(包括gap)。更准确的说,gap校正后的氨基酸分数
p_i(a) * N_eff(i) / (N_eff + 1)
大于0.6为大写字母,大于0.4为小写字母。
其中,p_i(a)是第i列中a的发射概率,N_eff是整个多重比对中有效序列的数量,N_eff(i)是由那些在第i列中没有gap的序列组成的子比对中的有效序列的数量。
中间的一行表示在查询序列和模板序列之间氨基酸分布的列分数。为比对质量提供了有价值的标示。
Confidence
:查询和模板对齐的可靠性。置信度值是从前向后向算法中计算出的后验概率中获得的。值8表示这对HMM列正确对齐的可能性在0.8和0.9之间。