一.替换计分矩阵:
1.DNA序列比对的替换计分矩阵
1.等价矩阵:最简单的一种替换计分矩阵,即相同核苷酸间匹配得分,不匹配则不得分。缺点在于没有区别对待不同碱基的替换,因此实际应用很少。
2.转换-颠换矩阵:是考虑碱基的转换和颠换而设计的矩阵,因为碱基转换比颠换容易的多,因此转换得分会比颠换得分高一点,此种矩阵应用也较少。
3.BLAST矩阵 :大量实际比对发现当两个核苷酸相同时得分为+5,不同则得分为-4时比对的效果较好,因此这种打分方法被广泛地用于DNA序列比对,被称为BLAST矩阵。
2.蛋白质序列比对的替换计分矩阵
1.等价矩阵:同DNA等价矩阵,应用少。
2.遗传密码矩阵:计算一个氨基酸要转化为另一种氨基酸所需的密码子变化数目而得到。
3疏水性矩阵:根据20种氨基酸侧链基团疏水性的不同以及氨基酸替换前后理化性质变化的大小而指定的矩阵,适用于偏蛋白质功能方面的比对。
4.PAM矩阵:PAM(point accepted matrix)矩阵也叫可接受点突变矩阵,是根据进化中氨基酸的实际替换率大小制定的矩阵,即若某两个氨基酸之间替换频繁,那么这样的替换得分就较高。PAM-1表示每100个氨基酸平均仅发生一个突变时的矩阵,PAM-1可以自乘n次得到PAM-n,代表某些氨基酸位置经历多次突变。此方法较为广泛使用。
5.BLOSUM矩阵:此矩阵也是通过替换率得到,但和PAM两种矩阵的形成方式不同,来源数据亦不同。BLOSUM矩阵的编号代表的是序列可能相同的最高水平,即若是BLOSUM-62那么代表此矩阵是由具有62%相同比例的序列被统计后形成的。因此高相似性的序列应使用高编号的BLOSUM矩阵,低编号的PAM矩阵,反之亦然1。
二.比对算法
首先,序列之间比对会产生几种情况即匹配、失配(即不同氨基酸或碱基对上)、插入或缺失(产生空位)。设x、y两条序列,那么当需要比对两条链时,利用动态规划算法,即一直在匹配中采取最好的结果,局部最优演化为全链最优。
1.将空位罚分一视同仁,即不考虑空位延伸的特殊性时:
S ( i , j ) = m a x { S ( i − 1 , j − 1 ) + w ( x i , y j ) S ( i − 1 , j ) + d S ( i , j − 1 ) + d S (i,j) = max\left\{ \begin{array}{c} S(i-1,j-1)+w(x_i,y_j) \\ S(i-1,j)+d \\ S(i,j-1)+d\end{array}\right. S(i,j)=max⎩⎨⎧S(i−1,j−1)+</