《Natural Language Processing》斯坦福视频学习笔记——3.编辑距离

本篇介绍Leventice distance以及它的变种,主要包括:

  • Leventice distance及其复杂度
  • 基于权重的编辑距离
  • Needleman-Wunsch算法
  • 改进的算法
  • Smith-Waterman算法
  • Smith-Waterman与 Needleman-Wunsch对比
具体内容如下:

  • Leventice distance:
    代价(cost):删除-1,插入-1,替换-2
  • 如何确定编辑距离:
    (1)初始状态,目标状态
    (2)操作:删除、插入、替换
    (3)操作路径的代价,即cost
    公式:
  • 复杂度:
    时间:O(nm)
    空间:O(nm)
    回溯:O(n+m)
  • 基于权重的编辑距离:
  • Needleman-Wunsch算法:
  • 改进的算法:
    思想:改变初始和结束匹配的位置,如:
  • 改变后的策略:
  • Smith-Waterman算法:
    对上面改进算法的改进,找到最大子串,从中间开始。
    改进的地方:
  • Smith-Waterman 算法与 Needleman-Wunsch 算法存在着三个区别:

     (1)在初始化阶段,第一行和第一列全填充为 0(而且第一行和第一列的指针均为空)。

     (2)在填充表格时,如果某个得分为负,那么就用 0 代替,只对得分为正的单元格添加返回指针。

     (3)在回溯的时候,从得分最高的单元格开始,回溯到得分为 0 的单元格为止。除此之外,回溯的方式与 Needleman-Wunsch 算法完全相同。
    两者详细介绍参考:
    http://blog.csdn.net/hugeheadhuge/article/details/6329558

总结:
  • 编辑距离无论算法的核心在于3个操作:insert、delete和substitute
  • Needleman-Wunsch算法的核心是全局序列比对,引入了d和s,使得编辑距离可能为负值
  • Smith-Waterman算法的核心是局部序列比对,对于小于0的值会用0代替,只有大于0的值才有指针



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值