目录
第三章:序列比较(P1)
课时
3.1 认识序列
3.2 序列相似性
3.3 替换记分矩阵
3.4 序列两两比较:打点法
3.5 序列两两比较:序列比对法
3.6 一致度和相似度
3.1 认识序列
我们这里研究的序列主要是指蛋白质序列和核酸序列。
蛋白质序列是由 20 个不同的字母,也就是 20 种不同的氨基酸排列组合而成。
核酸序列是由 4 种不同的字母,也就是 4 种 不同的碱基排列组合而成。核酸序列又分为 DNA 序列和 RNA 序列。
3.2 序列相似性
对于一个已知序列但未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,那么就可以推测出这个未知结构和功能的蛋白质的结构和功能。
简言之,相似的序列意味着相似的结构,相似的结构意味着相似的功能。(当然,这也存在例外)
序列有多相似是可以量化的。
用一致度(identity)和相似度(similarity)这两个指标来定量描述序列有多相似。
如何计算一致度和相似度?详见3.6
(1)如果两个序列长度相同
一致度: 可以暂时定义为它们对应位置上相同的残基数目占总长度的百分比。
一个残基 :就是指一个字母(氨基酸或碱基)。
比如: 上下相同的残基位置有 2 个,序列长度为 4。它们的一致度就是 2 除以 4,50%。
相似度:如果两个序列长度相同,那么它们的相似度可以暂时定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分比。
比如 L 和 I 是否相似?K 和 L 是否相似呢?要解决这个问题,我们需要替换记分矩阵。
我们可以从替换记分矩阵中读出 I 和 L 相似,K 和 L 不相似。因此,它们的相似度就是 2 个相同的加上 1 个相似的,除以长度 4,等于 75%。
(2)如果两个序列长度不同
使用如下方法:
序列两两比较:打点法
序列两两比较:序列比对法
3.3 替换记分矩阵
替换记分矩阵是反映残基之间相互替换率的矩阵。也就是说,它描述了残基两两相似的量化关系。比如下图就是一个替换记分矩阵。
矩阵中行和列分别是20 种氨基酸,且两两之间有一个分值。根据这个分值就可以知道谁和谁相似,谁和谁不相似。
替换记分矩阵有很多种。DNA 序列有 DNA序列的替换记分矩阵,蛋白质序列有蛋白质序列的替换记分矩阵, 两者不可混用。
3.3.1 DNA序列的替换记分矩阵
DNA 序列的替换记分矩阵主要有三种。
- 等价矩阵:这个矩阵最简单。其中,相同核苷酸之间的匹配得分为 1,不同核苷酸间的替换得分为 0。由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中很少使用,一般只用于理论计算。
- 转换-颠换矩阵:转换的得分比颠换要高为-1分,而颠换的得分为-5 分1。
- BLAST 矩阵:经过大量实际比对发现,如果令被比对的两个核苷酸相同时 得分为+5 分,不相同为-4分,这时比对效果最好。这个矩阵广泛地被 DNA 序列比较所采 用。没有为什么,就是好,实践经验所得。因为这个矩阵最早应用于 BLAST
工具,因此得 名 BLAST 矩阵。
3.3.2 蛋白质序列的替换记分矩阵
蛋白质的替换记分矩阵要比核酸的复杂一些。蛋白质最常用的两种矩阵是 PAM 矩阵和 BLOSUM 矩阵。
三种蛋白质的替换记分矩阵:
- 等价矩阵,相同得 1 分,不同得 0 分。
- PAM 矩阵
- BLOSUM 矩阵
- 遗传密码矩阵
- 疏水矩阵(偏重蛋白质功能方面的序列比对)
蛋白质最常用的两种矩阵是 PAM 矩阵和 BLOSUM 矩阵
PAM 矩阵
PAM 矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一。一个PAM就是一个进化的变异单位,即1%的氨基酸改变。但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸。PAMn矩阵是由PAM1自乘n次得到的。
这种矩阵的缺点是一旦PAM1的矩阵有误差,那么自乘250后得到的PAM250矩阵的误差就会变得很大。这个矩阵已经很少使用,而被BLOSUM代替。
我们需要根据要比较的序列 之间的亲缘关系远近,来选择适合的 PAM 矩阵。
如果序列亲缘关系远,也就是说序列间会有很多突变,那就选 PAM 后面跟一个大数字的矩阵。如果亲缘关系近,也就是突变比较少, 序