对于蛋白质序列,计分矩阵主要用于记录在做序列比对时两个相对应的残基的相似度,一旦这个矩阵定义好了以后,比对程式就可以利用这个矩阵,尽量将相似的残基排在一起,以达到最好的比对。
得分矩阵主要有两种,第一种就是PAM(Point Accepted Multation),另一种就是BLOSUM。
1、PAM矩阵(Point Accepted Mutation)
基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即1%的氨基酸改变,但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸。
PAM矩阵的制作步骤:
构建序列相似(大于85%)的比对
计算氨基酸 j 的相对突变率mj(j被其它氨基酸替换的次数)
针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数
替换次数除以相对突变率(mj)
利用每个氨基酸出现的频度对j 进行标准化
取常用对数,得到PAM-1(i, j)
将PAM-1自乘N次,可以得到PAM-N。
这种矩阵的缺点是一旦PAM1的矩阵有效地误 差,那么自乘250后得到的PAM250矩阵的误差就会变得很大。
如,PAM120矩阵用于比较相距120个PAM单位的序列。
一个PAM-N矩阵元素(i,j