所谓文本的编辑距离,是指从一个文本变成另一个文本所需要的做小操作数。这些操作一般包括字符的插入、删除和替换。
这个概念是俄罗斯科学家在1965年提出来的。
编辑距离的算法可以概括以下:定义一个编辑距离的函数 editText(i,j)表示从从长度为i的字符串变到长度为j的字符串所需要的最小操作数。这个问题可以用动态规划的方法来求解。概括为以下几点:
- if (i == 0 && j == 0) edit(i, j) = 0;
- if (i == 0 && j > 0) edit(i, j) = j;
- if (i > 0 && j == 0) edit(i, j) = i;
- if (i >= 1 && j >= 1) edit(i, j) == min( edit(i - 1, j) + 1, edit(i, j - 1) + 1, edit(i - 1, j-1) + f(i,j) ); 其中当字符串A的第i个字符和字符串B的第j个字符相同时,f(i,j) 为零,否则为一。
具体的计算过程如下图所示。在一个字符串中,每个char是一个单元,底标编号从0开始