编辑距离(Edit Distance)

概述

编辑距离(Minimum Edit Distance,MED),由俄罗斯科学家 Vladimir Levenshtein 在1965年提出,也因此而得名 Levenshtein Distance。在信息论、语言学和计算机科学领域,Levenshtein Distance 是用来度量两个序列相似程度的指标。通俗地来讲,编辑距离指的是在两个单词<w_1,w_2>之间,由其中一个单词w_1转换为另一个单词w_2所需要的最少单字符编辑操作次数。

在这里定义的单字符编辑操作有三种:

  • 插入(Insertion)
  • 删除(Deletion)
  • 替换(Substitution)

譬如,"kitten" 和 "sitting" 这两个单词,由 "kitten" 转换为 "sitting" 需要的最少单字符编辑操作有:

1.kitten → sitten (substitution of "s" for "k")
2.sitten → sittin (substitution of "i" for "e")
3.sittin → sitting (insertion of "g" at the end)

因此,"kitten" 和 "sitting" 这两个单词之间的编辑距离为 3 。

形式化定义

我们将两个字符串 a,b 的 Levenshtein Distance 表示为 lev_{a,b}(|a|, |b|),其中|a||b| 分别对应a,b 的长度。那么,在这里 lev_{a,b}(|a|, |b|) 可用如下的数学语言描述:

  • lev_{a,b}(i, j) 指的是 ai 个字符bj 个字符之间的距离。为了方便理解,这里的i,j可以看作是a,b的长度。这里的字符串的字符 index 从 1 开始,因此最后的编辑距离便是 i = |a|, j = |b| 时的距离: lev_{a,b}(|a|, |b|)

  • min(i, j) = 0 的时候,对应着ai 个字符bj 个字符,此时的 i,j 有一个值为 0 ,所以它们之间的距离为 max(i, j),即 i,j 中的最大者。

  • min(i, j) \ne 0 的时候,lev_{a,b}(|a|, |b|) 为如下三项的最小值:
    1.lev_{a,b}(i-1, j) 表示 删除 a_i
    2.lev_{a,b}(i, j-1) 表示 插入 b_j
    3.lev_{a,b}(i-1, j-1)+1_{(a_i \ne b_j)} 表示 替换 b_j

  • 1_{(a_i \ne b_j)} 为一个指示函数,表示当 a_i = b_j 的时候取 1 ;当 a_i \ne b_j 的时候,其值为 0。

    应用与思考

    编辑距离是NLP基本的度量文本相似度的算法,可以作为文本相似任务的重要特征之一,其可应用于诸如拼写检查、论文查重、基因序列分析等多个方面。但是其缺点也很明显,算法基于文本自身的结构去计算,并没有办法获取到语义层面的信息。

    由于需要利用矩阵,故空间复杂度为O(MN)。这个在两个字符串都比较短小的情况下,能获得不错的性能。不过,如果字符串比较长的情况下,就需要极大的空间存放矩阵。例如:两个字符串都是20000字符,则 LD 矩阵的大小为:20000 * 20000 * 2=800000000 Byte=800MB。


     

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值