Needleman-Wunsch算法

静心问道

于 2024-10-04 09:28:34 发布

阅读量123

点赞数 1

分类专栏：自然语言处理文章标签：算法

本文链接：https://blog.csdn.net/qq_39698985/article/details/142699902

版权

自然语言处理专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Needleman-Wunsch 算法是一种 动态规划 算法，用于 全局序列比对，尤其是在 生物信息学 中比较 DNA、RNA 或蛋白质序列时。它旨在找到两个序列的最佳全局比对，最大化相似度分数，并尽可能保留序列的匹配。

核心思想

它通过在序列中引入 插入（insertions）、删除（deletions） 和 替换（substitutions） 操作，允许两个序列以对齐方式匹配，即使它们长度不同或存在差异。通过这些操作，它可以计算出两个序列之间的最佳全局对齐。

步骤概览

初始化矩阵：
建立一个二维得分矩阵，矩阵的维度取决于两个序列的长度，每个单元格记录了到达该位置的最优比对得分。
矩阵填充：
通过动态规划的方式填充矩阵，从左上角开始，根据之前计算的结果，决定当前单元格的最优得分。对于矩阵的每一个单元格，有三种选择：
- 匹配/替换（两个字符相同或不同）
- 插入（在一个序列中插入空字符）
- 删除（从另一个序列中删除字符）
每个操作都有相应的得分（可以是正或负），最终根据操作选择最优路径。
回溯路径：
当整个矩阵填充完毕后，从右下角回溯找到最优的对齐路径，这条路径对应了两个序列的最佳全局比对。

算法步骤

假设我们有两个序列：

序列 A: GATTACA
序列 B: GCATGCU

1. 初始化得分矩阵

创建一个大小为 (len(A)+1) x (len(B)+1) 的矩阵，每个元素代表一个位置的对齐得分。
第一行和第一列填充插入或删除操作的累积得分，因为这对应着一种边界情况，序列与空序列比对。

      G  C  A  T  G  C  U
   0 -1 -2 -3 -4 -5 -6 -7
G -1
A -2
T -3
T -4
A -5
C -6
A -7

2. 矩阵填充

从左上角开始，依次填充矩阵。
对每个单元格，我们需要比较三种情况：
- 左上方对角线元素（表示匹配或替换）
- 左边元素（表示插入）
- 上方元素（表示删除）

然后根据这些操作的得分填充每个单元格。

3. 回溯找到最佳路径

当矩阵填充完成后，从右下角开始回溯，找到最优的对齐路径。这条路径对应了两个序列的最佳全局比对。

例子

序列 A: GATTACA
序列 B: GCATGCU

最终的矩阵和回溯路径可能如下：

      G   C   A   T   G   C   U
   0  -1  -2  -3  -4  -5  -6  -7
G -1   1   0  -1  -2  -3  -4  -5
A -2   0   0   2   1   0  -1  -2
T -3  -1   1   1   3   2   1   0
T -4  -2   0   0   2   4   3   2
A -5  -3  -1   1   1   3   3   3
C -6  -4  -2   0   0   2   5   4
A -7  -5  -3  -1  -1   1   4   4

通过回溯，我们可以得到最佳比对：