来自编程之美:给定任意两个字符串,计算它们的编辑距离。
不难看出,两个字符串的距离肯定不超过它们的长度之和(我们可以通过删除操作把两个串都转化为空)。这个结论对结果没有帮助,但至少可以知道,任意两个字符串的距离都是有限的。
考虑如何才能把这个问题转化成规模较小的同样的问题。如果有两个字符串A=xabcdef和B=xfdfd,它们的第一个字符是相同的,只要计算A[2,...,7]=abcdef和B[2,...5] =fdfd的距离就可以了。但如果两个字符串的第一个字符不相同,那么可以进行如下操作(lenA和lenB分别是A和B的长度):
1. 删除A的第一个字符,然后计算A[2,...,lenA]和B[1,...,lenB]的距离。
2. 删除B的第一个字符,然后计算A[1,...,lenA]和B[2,...,lenB]的距离。
3. 修改A的第一个字符为B的第一个字符,然后计算A[2,...,lenA]和B[2,...,lenB]的距离。
4. 修改B的第一个字符为A的第一个字符,然后计算A[2,...,lenA]和B[2,...,lenB]的距离。
5. 增加A的第一个字符到B的前面,然后计算A[2,...,lenA]和B[1,...,lenB]的距离。
6. 增加B的第一个字符到A的前面,然后计算A[1,...,lenA]和B[2,...,lenB]的距离。
由于本题中,我们不在乎两个字符串变得相等后的字符串是怎样的,所以上面6步可以合并为:
1. 一步操作后,在将A[1,...,lenA]和B[2,...,lenB]变为相等的字符串。
2. 一步操作后,在将A[2,...,lenA]和B[1,...,lenB]变为相等的字符串。
3. 一步操作后,在将A[2,...,lenA]和B[2,...,lenB]变为相等的字符串。
于是,可以得到递归的代码:
int stringDistance(string str1, int p1begin, int p1end, string str2, int p2begin, int p2end)
{
if (p1begin > p1end)
{
if (p2begin > p2end)
return 0;
else
return p2end - p2begin + 1;
}
if (p2begin > p2end)
{
if (p1begin > p1end)
return 0;
else
return p1end - p1begin + 1;
}
if (str1[p1begin] == str2[p2begin])
{
return stringDistance(str1, p1begin + 1, p1end, str2, p2begin + 1, p2end);
}
else
{
int t1 = stringDistance(str1, p1begin + 1, p1end, str2, p2begin + 2, p2end);
int t2 = stringDistance(str1, p1begin + 2, p1end, str2, p2begin + 1, p2end);
int t3 = stringDistance(str1, p1begin + 2, p1end, str2, p2begin + 2, p2end);
return minValue(t1, t2, t3) + 1;
}
}