山大生信_02_序列比较_P1

最新推荐文章于 2024-07-17 14:05:43 发布

bleuebaleine

最新推荐文章于 2024-07-17 14:05:43 发布

阅读量2.8k

点赞数 4

分类专栏： #生信

本文链接：https://blog.csdn.net/bleuealeine/article/details/104471891

版权

本文介绍了序列比较的基础知识，包括序列相似性、替换记分矩阵、打点法和序列比对法。讨论了DNA和蛋白质序列的不同替换记分矩阵，如PAM和BLOSUM矩阵，以及如何根据序列亲缘关系选择合适的矩阵。通过实例展示了手动打点法和Dotlet工具的使用，强调了局部比对在寻找序列相似片段中的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第三章：序列比较（P1）
课时
3.1 认识序列
3.2 序列相似性
3.3 替换记分矩阵
3.4 序列两两比较：打点法
3.5 序列两两比较：序列比对法
3.6 一致度和相似度

3.1 认识序列

我们这里研究的序列主要是指蛋白质序列和核酸序列。
蛋白质序列是由 20 个不同的字母，也就是 20 种不同的氨基酸排列组合而成。
核酸序列是由 4 种不同的字母，也就是 4 种不同的碱基排列组合而成。核酸序列又分为 DNA 序列和 RNA 序列。
在这里插入图片描述

3.2 序列相似性

在这里插入图片描述
对于一个已知序列但未知结构和功能的蛋白质，如果与它序列相似的某些蛋白质的结构和功能已知，那么就可以推测出这个未知结构和功能的蛋白质的结构和功能。

简言之，相似的序列意味着相似的结构，相似的结构意味着相似的功能。（当然，这也存在例外）

序列有多相似是可以量化的。
在这里插入图片描述

在这里插入图片描述
用一致度（identity）和相似度（similarity）这两个指标来定量描述序列有多相似。

如何计算一致度和相似度？详见3.6
（1）如果两个序列长度相同
一致度：可以暂时定义为它们对应位置上相同的残基数目占总长度的百分比。
一个残基 ：就是指一个字母（氨基酸或碱基）。

比如：上下相同的残基位置有 2 个，序列长度为 4。它们的一致度就是 2 除以 4，50%。

在这里插入图片描述
相似度：如果两个序列长度相同，那么它们的相似度可以暂时定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分比。

比如 L 和 I 是否相似？K 和 L 是否相似呢？要解决这个问题，我们需要替换记分矩阵。
在这里插入图片描述

我们可以从替换记分矩阵中读出 I 和 L 相似，K 和 L 不相似。因此，它们的相似度就是 2 个相同的加上 1 个相似的，除以长度 4，等于 75%。

（2）如果两个序列长度不同
在这里插入图片描述
使用如下方法：

序列两两比较：打点法
序列两两比较：序列比对法
在这里插入图片描述

3.3 替换记分矩阵

替换记分矩阵是反映残基之间相互替换率的矩阵。也就是说，它描述了残基两两相似的量化关系。比如下图就是一个替换记分矩阵。
矩阵中行和列分别是20 种氨基酸，且两两之间有一个分值。根据这个分值就可以知道谁和谁相似，谁和谁不相似。
替换记分矩阵有很多种。DNA 序列有 DNA序列的替换记分矩阵，蛋白质序列有蛋白质序列的替换记分矩阵，两者不可混用。

3.3.1 DNA序列的替换记分矩阵

在这里插入图片描述
DNA 序列的替换记分矩阵主要有三种。

等价矩阵：这个矩阵最简单。其中，相同核苷酸之间的匹配得分为 1，不同核苷酸间的替换得分为 0。由于不含有碱基的理化信息和不区别对待不同的替换，在实际的序列比较中很少使用，一般只用于理论计算。
转换-颠换矩阵：转换的得分比颠换要高为-1分，而颠换的得分为-5 分¹。

BLAST 矩阵：经过大量实际比对发现，如果令被比对的两个核苷酸相同时得分为+5 分，不相同为-4分，这时比对效果最好。这个矩阵广泛地被 DNA 序列比较所采用。没有为什么，就是好，实践经验所得。因为这个矩阵最早应用于 BLAST
工具，因此得名 BLAST 矩阵。

3.3.2 蛋白质序列的替换记分矩阵

蛋白质的替换记分矩阵要比核酸的复杂一些。蛋白质最常用的两种矩阵是 PAM 矩阵和 BLOSUM 矩阵。

三种蛋白质的替换记分矩阵：

等价矩阵，相同得 1 分，不同得 0 分。
PAM 矩阵
BLOSUM 矩阵
遗传密码矩阵
疏水矩阵（偏重蛋白质功能方面的序列比对）

蛋白质最常用的两种矩阵是 PAM 矩阵和 BLOSUM 矩阵
在这里插入图片描述
PAM 矩阵
PAM 矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一。一个PAM就是一个进化的变异单位，即1%的氨基酸改变。但这并不意味100次PAM后，每个氨基酸都发生变化，因为其中一些位置可能会经过多次突变，甚至可能会变回到原来的氨基酸。PAMn矩阵是由PAM1自乘n次得到的。