编辑距离(Edit Distance)

最新推荐文章于 2024-08-15 13:39:06 发布

weixin_35389463

最新推荐文章于 2024-08-15 13:39:06 发布

阅读量707

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_35389463/article/details/88916250

版权

深度学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

概述

编辑距离（Minimum Edit Distance，MED），由俄罗斯科学家 Vladimir Levenshtein 在1965年提出，也因此而得名 Levenshtein Distance。在信息论、语言学和计算机科学领域，Levenshtein Distance 是用来度量两个序列相似程度的指标。通俗地来讲，编辑距离指的是在两个单词 <w_1,w_2> 之间，由其中一个单词 w_1 转换为另一个单词 w_2 所需要的最少单字符编辑操作次数。

在这里定义的单字符编辑操作有三种：

插入（Insertion）
删除（Deletion）
替换（Substitution）

譬如，"kitten" 和 "sitting" 这两个单词，由 "kitten" 转换为 "sitting" 需要的最少单字符编辑操作有：

1.kitten → sitten (substitution of "s" for "k")
2.sitten → sittin (substitution of "i" for "e")
3.sittin → sitting (insertion of "g" at the end)

因此，"kitten" 和 "sitting" 这两个单词之间的编辑距离为 3 。

形式化定义

我们将两个字符串 a,b 的 Levenshtein Distance 表示为 $lev_{a,b}(|a|, |b|)$ ，其中 |a| 和 |b| 分别对应 a,b 的长度。那么，在这里 $lev_{a,b}(|a|, |b|)$ 可用如下的数学语言描述：

$lev_{a,b}(i, j)$ 指的是中前个字符和中前个字符之间的距离。为了方便理解，这里的可以看作是的长度。这里的字符串的字符 index 从 1 开始，因此最后的编辑距离便是时的距离： $lev_{a,b}(|a|, |b|)$
当的时候，对应着中前个字符和中前个字符，此时的有一个值为 0 ，所以它们之间的距离为，即中的最大者。
当 $min(i, j) \ne 0$ 的时候， $lev_{a,b}(|a|, |b|)$ 为如下三项的最小值：
1. $lev_{a,b}(i-1, j)$ 表示删除
2. $lev_{a,b}(i, j-1)$ 表示插入
3. $lev_{a,b}(i-1, j-1)+1_{(a_i \ne b_j)}$ 表示替换
$1_{(a_i \ne b_j)}$ 为一个指示函数，表示当的时候取 1 ;当 $a_i \ne b_j$ 的时候，其值为 0。

应用与思考

编辑距离是NLP基本的度量文本相似度的算法，可以作为文本相似任务的重要特征之一，其可应用于诸如拼写检查、论文查重、基因序列分析等多个方面。但是其缺点也很明显，算法基于文本自身的结构去计算，并没有办法获取到语义层面的信息。

由于需要利用矩阵，故空间复杂度为O(MN)。这个在两个字符串都比较短小的情况下，能获得不错的性能。不过，如果字符串比较长的情况下，就需要极大的空间存放矩阵。例如：两个字符串都是20000字符，则 LD 矩阵的大小为：20000 * 20000 * 2=800000000 Byte=800MB。