1.1 序列相似性比较
生物信息学中,对各种生物大分子序列进行分析是一件非常基本的工作。从序列的片段测定,拼接,基因的表达分析,到RNA和蛋白质的结构功能预测,物种亲缘树的构建都需要进行生物分子序列相似性的比较。在遗传物质长期的演化过程中,原本相同的DNA序列由于其中一条序列缺失了几个片断,或增加了几个片断,或某段子序列发生了位置的变化等,从而导致他们发生了不同,这两条序列不一定能进行精确的匹配,但是他们有一定的相似度。我们应该如何判定序列之间的这种相似性?对于这种情况,生物学家提出了一种用来评定序列相似性的方法,称为记分函数的方法。
定义1:如果是一个序列,那么表示中的字符长度,表示序列的第个字符。如果序列和序列相同,必须满足如下条件:
(1)、;
(2)、;
定义2:如果和是两个字符,那么表示和字符在进行比较时所得的分值,称为一个记分函数,记分函数还包括当为空字符或为空字符的情况,在序列中一个所谓的空字符表示序列中空字符的位置可能缺失一个未知的字符,我们只能使用空字符来表示这种缺失;
定义3:如果和是两个序列,那么的一个相似性比较可以用和来表示,其中:
(1)、;
(2)、将和中的空字符除去后所得的序列分别和、相同;
相似性比较就是