【基因序列比对】Needleman-Wunsch算法

前言

最近加入了一个研究基因大数据的项目组,要学习基因相关知识QAQ,所以开始一个新系列梳理知识和激励自己学习。

本系列参考了https://zhuanlan.zhihu.com/p/54142276

Needleman-Wunsch算法

Needleman-Wunsch算法是基于动态规划的算法,记不清楚的可以看下我之前的动态规划的文章,简单总结就是将一个问题分解为很多相互联系并且逐渐扩大的小问题,依次解决使问题规模逐渐扩大,最终获得问题的解。

DNA有三种情况可能导致两个序列不同:

  1. SNP单核酸多态性,就是碱基被替换了,出现频率最高(CGTT -> CGTA)
  2. INSERT,就是多复制了一个(CGTT -> CGTTT)
  3. DELETION,就是少复制了一个(CGTT -> CGT)

那么两个序列的碱基一一比对时共有三种可能的情况

  1. MATCH:上下匹配
  2. MISMATCH:出现SNP,上下不匹配
  3. GAP:出现INSERT或DELETION导致一个序列为空缺。

我们在比对时需要一定的准则来评判不同错误产生的比对损失,因为在测出两个序列的时候我们不知道引起发错误的原因。

假定MATCH得1分,MISMATCH或GAP得-1分。我们需要知道的就是两个序列在哪种排列对应时能获得最高分。我们当然可以使用穷举法获得最优解,但是序列长的话费时费力,那么分析情况会发现,使用动态规划妙不可言!

举个栗子

假定要比对的两个序列:
ATGCATG
AACCGTC

步骤1:初始化得分表
由于Needleman-Wunsch算法是基于动态规划算法思想的,所以他必有一个得分表可用于记录和回溯。
第一行和第一列为初始的得分,因为相邻构成一个GAP,例如第一行第三列的-2:-AT与—有两个GAP,故为-2。

步骤2:填表
用从左上到右下的顺序计算每个位点的得分,每个位点的得分与左上、左、上方向的得分有关,计算规则为移动前位点分数和移动造成的得分相加,选取三个方向得分的最高分(即最优解)为当前位点得分。依此类推填完所有表格。

以第一步为例:
在这里插入图片描述左上:
原分数:0分
移动造成分数:

  • -> -A
  • -> -A
    为MATCH:得1分
    总分数:0 + 1 = 1分

上:
原分数:-1分
移动造成分数:
-A -> -A-
– -> --A
造成GAP:-1分

总分数:-1 + (-1) = -2分

左:
原分数:-1分
移动造成分数:
– -> --A
-A -> -A-
造成GAP:-1分

总分数:-1 + (-1) = -2分

选择其中最高分:左上方向的1分,填入表中即可

依此类推填满所有表格:
在这里插入图片描述
回溯找回原来的路径:在这里插入图片描述
从右下方开始,如果选值不为左上方,则在相应方向引入一个GAP,使最终路径为一个对角线即可得到最终的最优对应序列。
按照上法可得到三个比对得分都为0的结果(最优解):
原序列
ATGCATG
AACCGTC
最优序列
ATGCA-TG
A-ACCGTC

ATG-CATG
A-ACCGTC

ATGC-ATG
A-ACCGTC

  • 3
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Needleman-Wunsch算法是一种用于比对两条生物序列(如DNA或蛋白质序列)的算法。它采用了动态规划的思想,通过构建一个二维矩阵来计算两条序列之间的最佳比对方式。它可以计算出两条序列之间的最高相似度,并用这个相似度来推断进化关系。 ### 回答2: Needleman-Wunsch算法是一种经典的序列比对算法,被广泛应用于生物信息学领域和DNA/RNA/蛋白质序列的比对工作中。该算法的核心思想是通过动态规划的方法,找到两个序列之间的最佳比对方案。 算法的步骤如下: 1. 初始化一个二维矩阵,大小为两个序列长度加1。矩阵的第一行和第一列分别对应两个序列的每个字符。 2. 初始化第一行和第一列,即给每个元素赋予相应的惩罚分数。一般来说,匹配得分为正,不匹配和缺失的得分为负。 3. 根据相应的匹配规则,计算每个矩阵元素的得分。矩阵中的每个元素都表示该位置匹配到的最佳得分。 4. 通过回溯的方式,根据得分矩阵确定最佳比对方案。从得分矩阵的右下角开始,根据当前位置的得分和其周围位置的得分,决定向上、向左还是左上方向移动。 5. 根据比对方案,生成最佳比对序列。 Needleman-Wunsch算法具有以下特点: 1. 能够找到两个序列之间的全局最佳比对方案,即找到最大得分的比对方式。 2. 能够处理序列长度不等的情况,能够对缺失或插入的位置进行补全。 3. 对于大规模的序列比对算法的时间复杂度较高,需要额外的计算资源。 4. 算法中的得分矩阵可以用于表示序列的相似性或差异性。 Needleman-Wunsch算法的应用广泛,例如在基因组学研究中,可以比对不同物种的基因组序列,寻找共同的基因功能区域。在药物设计中,可以比对蛋白质序列,寻找同源蛋白质并预测其结构和功能。此外,该算法还可以应用于DNA测序中,对测序结果进行比对和校正。 总之,Needleman-Wunsch算法是一种有效的序列比对算法,在生物信息学和相关领域具有重要的应用价值。 ### 回答3: Needleman-Wunsch算法是一种常见的序列比对算法,用于比较两个序列之间的相似性。它是由Saul Needleman和Christian Wunsch于1970年提出的,是一种全局比对算法,适用于字符串、蛋白质序列或DNA序列的比对。 需要进行比对的两个序列被放置在一个二维的矩阵中。算法根据预先定义的匹配得分、替换得分和惩罚值,计算出每个位置的得分。在计算的过程中,需要考虑序列间插入或删除字符的成本。 算法的具体步骤如下: 1. 初始化一个空的二维矩阵,矩阵的大小是两个序列的长度加一。 2. 在矩阵的边缘填充惩罚值。 3. 从矩阵的左上角开始,计算每个位置的得分。得分是根据上方、左方和左上方的得分和匹配情况计算的。 4. 根据得分确定最佳的替换、匹配或删除操作,并将对应的字符插入到比对结果中。 5. 重复步骤3和4,直到到达矩阵的右下角。 6. 根据得分矩阵构建最佳比对结果。 Needleman-Wunsch算法的时间复杂度为O(n^2),其中n是序列的长度。它可以找到两个序列之间的最佳比对结果,但可能会受限于较长序列的内存需求。虽然算法的计算量较大,但由于它的准确性和全局比对的能力,在生物信息学领域得到广泛应用,例如蛋白质结构的比对和进化树的构建等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值