这个概念好神奇啊,具体的还是看百度百科的介绍吧。
定义:编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
算法:
自然语言表达
比如要计算cafe和coffee的编辑距离。cafe→caffe→coffe→coffee
先创建一个6×8的表(cafe长度为4,coffee长度为6,各加2)
(1):
c | o | f | f | e | e | ||
c | |||||||
a | |||||||
f | |||||||
e | 表 | 1 |
接着,在如下位置填入数字(表2):
c | o | f | f | e | e | ||
0 | 1 | 2 | 3 | 4 | 5 | 6 | |
c | 1 | ||||||
a | 2 | ||||||
f | 3 | ||||||
e | 4 | 表 | 2 |
从3,3格开始,开始计算。取以下三个值的最小值:
-
如果最上方的字符等于最左方的字符,则为左上方的数字。否则为左上方的数字+1。(对于3,3来说为0)
-
左方数字+1(对于3,3格来说为2)
-
上方数字+1(对于3,3格来说为2)
因此为格3,3为0(表3)
c | o | f | f | e | e | ||
0 | 1 | 2 | 3 | 4 | 5 | 6 | |
c | 1 | 0 | |||||
a | 2 | ||||||
f | 3 | ||||||
e | 4 | 表 | 3 |
循环操作,推出下表
c | o | f | f | e | e | ||
0 | 1 | 2 | 3 | 4 | 5 | 6 | |
c | 1 | 0 | 1 | 2 | 3 | 4 | 5 |
a | 2 | 1 | 1 | 2 | 3 | 4 | 5 |
f | 3 | 2 | 2 | 1 | 2 | 3 | 4 |
e | 4 | 3 | 3 | 2 | 2 | 2 | 3 |
取右下角,得编辑距离为3
ok,看懂了算法后我们看代码,用dp的思想去写:
#include <stdio.h>
#include <cstring>
#include <algorithm>
using namespace std;
#define CLR(a,b) memset(a,b,sizeof(a))
#define INF 0x3f3f3f3f
#define LL long long
char s1[1011];
char s2[1011];
int ans[1011][1011]; //结果矩阵
int main()
{
scanf ("%s%s",s1+1,s2+1);
int l1,l2;
s1[0] = s2[0] = '@';
l1 = strlen(s1) - 1;
l2 = strlen(s2) - 1;
for (int i = 0 ; i <= max(l1,l2) ; i++) //初始化矩阵
ans[0][i] = ans[i][0] = i;
for (int i = 1 ; i <= l1 ; i++)
{
for (int j = 1 ; j <= l2 ; j++)
{
//下面三者取最小值
if (s1[i] != s2[j]) //如果这个点对应两字符相等,那么取左上方数字,否则取左上方数字加一
ans[i][j] = ans[i-1][j-1] + 1;
else
ans[i][j] = ans[i-1][j-1];
ans[i][j] = min(ans[i][j] , min(ans[i-1][j] + 1 , ans[i][j-1] + 1)); //然后再与左方数字+1、上方数字+1取最小值
}
}
printf ("%d\n",ans[l1][l2]); //右下角的数字即为结果(编辑距离)
return 0;
}