编辑距离(Minimum Edit Distance,MED),由俄罗斯科学家 Vladimir Levenshtein 在1965年提出,也因此而得名 Levenshtein Distance。Levenshtein Distance 是用来度量两个序列相似程度的指标。通俗地来讲,编辑距离指的是在两个单词之间,由其中一个单词
转换为另一个单词
所需要的最少单字符编辑操作次数。
单字符编辑操作有且仅有三种:
- 插入(Insertion)
- 删除(Deletion)
- 替换(Substitution)
形式化定义
我们将两个字符串 的 Levenshtein Distance 表示为
,其中
和
分别对应
的长度。那么,在这里两个字符串
的 Levenshtein Distance,即
可用如下的数学语言描述:
定义 指的是
中前
个字符和
中前
个字符之间的距离。