前言
目前计算句子相似性有很多不同的方案,比如基于语义词典的方法、基于相同词汇的方法、基于统计的方法和基于编辑距离的方法。这篇文章先介绍编辑距离的基础。
编辑距离
编辑距离其实就是指把一个字符串转换为另外一个字符串所需要的最小编辑操作的代价数。包括插入字符、替换字符和删除字符。编辑距离越小,相似度越大。
比如我们要将what转换成where,可能是将 a -> e,接着 t -> r ,变为wher,最后添加 e,完成。因为每一步都可以插入、删除或替换,那么如何才能在最终得到一个最小的代价,这是就会用到动态规划来求解。
假设我们有长度分别为i、j的两个字符串,设编辑距离为edit(i,j)。接着我们看下,如果它们最后的字符相等,则编辑距离其实等于edit(i-1,j-1)。而如果最后的字符不相等,那么我们可以通过插入或替换来使其相等,但是不同的操作对应的代价不相同,如果插入则为edit(i,j-1)+1 或 eidit(i-1,j)+1,替换则为edit(i-1,j-1)+1。
求解
用以下动态方程来表示:
其中
举个前面的例子,what 到 where,假设两个字符分别为空时对应的代价数如下,
编辑距离
空
w
h
a
t
空
0
1
2
3