前言
蛋白质同源性检测和折叠识别是近些年来生物信息学中的热点问题。通过蛋白质远同源性检测和折叠识别,能够初步推断未知蛋白质的结构和功能。其中,SCOP数据库[1]按照层级结构将蛋白质进行分类,从上到下依次是:类(class),折叠(fold),超家族(superfamily)和家(family)(如图1-1所示)。蛋白质远同源性检测的任务就是找出未知蛋白质所属的超家族。折叠识别的任务就是找出未知蛋白质所属的折叠类型。进一步根据所属的超家族和折叠类,推断出未知蛋白的结构和功能。由于具有远同源性的蛋白质之间序列相似度低(低于30%, 超家族层低于30%,折叠层低于20%),所以通过计算的方法来解决蛋白质远同源性检测问题和折叠识别一直是业内的一个难题。蛋白质远同源性检测研究当中中,相关方法主要能分为三类:基于比对的方法,基于排序的方法和基于判别式的方法[2]。蛋白质折叠识别的研究中,主要研究方法分为三类:基于比对的方法,基于机器学习的方法,基于集成的方法[3]。
目录
蛋白质同源检测
了解一个研究问题的三大步骤:what-->how-->why
- what?蛋白质同源检测的概念,蛋白质在SCOP数据库中分为近同源和远同源关系, 本文主要介绍蛋白质序列分析中远同源检测的相关入门知识。
- how? 如何去研究蛋白质同源检测的问题,数据集如何构建,当前的研究方法主要有哪些?
- why? 蛋白质同源检测的研究意义什么,本文不在赘述,相关知识请移步参考论文[2][3]。
蛋白质同源基本概念
同源(Homology):
Homology: the existence of shared ancestry between a pair of structures, or genes, in different species.
如果两个或多个结构具有相同的祖先,也就是它们由一个共同的祖先演化而来,则称它们同源(Homology)。
在生物信息中,同源主要是指序列上的同源,也就是用来说明两个或多个蛋白质或DNA序列具有相同的祖先。同源关系的强弱可以帮助了解物种间的亲缘关系。而且,同源的序列一般有相似的功能。序列中同源的部分也被称为保守的(conserved)。
蛋白质和DNA的同源性常常通过它们序列的相似性(Sequence similarity)来判定,相似性一般用检测序列和目标序列之间序列一致性(Percent identity)来表示。
相似性(Sequence similarity)是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
近同源与远同源:
一般来说,当相似程度高于50%时,常推测检测序列和目标序列可能是近同源序列;
当相似性程度低于30%时,就难以确定其是否具有同源性,称其为远同源。
同源蛋白质:指进化上相关的蛋白质。即不同物种中具有相同或相似功能的蛋白质或具有明显序列同源性的蛋白质。
蛋白质远程同源性(remote homology)是指具有同源相似性性的蛋白质已经充分进化,不再具有较强的序列间的相似性。
蛋白质远程同源性检测(protein remote homology detect)的目的是预测蛋白质的家族信息,因为具有同源性的蛋白质通常具有相似的结构和功能,所以可以由已知蛋白质家族的结构和功能推测出新测定蛋白质的结构和功能
蛋白质家族(Protein family)和蛋白质超家族(Protein superfamilies):
蛋白质家族(Protein family)是指一组进化上相关的蛋白,具有同源性(来自于相同祖先),相似的结构及功能,显著的序列相似性。
蛋白质超家族(protein superfamily),一些蛋白质家族被归入更大的进化分支,基于结构机制的相似性,尽管其没有可以确定(显著)的序列同源性。简单而言,就是蛋白质超家族包括了更多进化相关的蛋白,虽然没说有同源性,但因为其结构或功能基本相似,也被归为一个大类。而蛋白质家族的同源关系是可以确定的,也就是关系上更加严格些。
注意: 蛋白质远同源检测就是在超家族层面的研究问题。
蛋白质同源检测方法简介
蛋白质远同源性检测研究当中中,相关方法主要能分为三类:基于比对的方法,基于排序的方法和基于判别式的方法[2].
基于比对的方法(Alignment method)