编辑距离 - 科普 & 记录

这个概念好神奇啊,具体的还是看百度百科的介绍吧。

定义:编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。


算法:

自然语言表达

比如要计算cafe和coffee的编辑距离。cafe→caffe→coffe→coffee
先创建一个6×8的表(cafe长度为4,coffee长度为6,各加2)
(1):
    c o f f e e
               
c              
a              
f              
e           1
接着,在如下位置填入数字(表2):
    c o f f e e
  0 1 2 3 4 5 6
c 1            
a 2            
f 3            
e 4         2
从3,3格开始,开始计算。取以下三个值的最小值:
  • 如果最上方的字符等于最左方的字符,则为左上方的数字。否则为左上方的数字+1。(对于3,3来说为0)
  • 左方数字+1(对于3,3格来说为2)
  • 上方数字+1(对于3,3格来说为2)
因此为格3,3为0(表3)
    c o f f e e
  0 1 2 3 4 5 6
c 1
  0
         
a 2            
f 3            
e 4         3
循环操作,推出下表
    c o f f e e
  0 1 2 3 4 5 6
c 1 0 1 2 3 4 5
a 2 1 1 2 3 4 5
f 3 2 2 1 2 3 4
e 4 3 3 2 2 2 3
取右下角,得编辑距离为3

ok,看懂了算法后我们看代码,用dp的思想去写:

#include <stdio.h>
#include <cstring>
#include <algorithm>
using namespace std;
#define CLR(a,b) memset(a,b,sizeof(a))
#define INF 0x3f3f3f3f
#define LL long long
char s1[1011];
char s2[1011];
int ans[1011][1011];		//结果矩阵 
int main()
{
	scanf ("%s%s",s1+1,s2+1);
	int l1,l2;
	s1[0] = s2[0] = '@';
	l1 = strlen(s1) - 1;
	l2 = strlen(s2) - 1;
	for (int i = 0 ; i <= max(l1,l2) ; i++)		//初始化矩阵 
		ans[0][i] = ans[i][0] = i;
	for (int i = 1 ; i <= l1 ; i++)
	{
		for (int j = 1 ; j <= l2 ; j++)
		{
			//下面三者取最小值 
			if (s1[i] != s2[j])		//如果这个点对应两字符相等,那么取左上方数字,否则取左上方数字加一 
				ans[i][j] = ans[i-1][j-1] + 1;
			else
				ans[i][j] = ans[i-1][j-1];
			ans[i][j] = min(ans[i][j] , min(ans[i-1][j] + 1 , ans[i][j-1] + 1));		//然后再与左方数字+1、上方数字+1取最小值 
		}
	}
	printf ("%d\n",ans[l1][l2]);		//右下角的数字即为结果(编辑距离) 
	return 0;
}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值