动态规划——最短编辑距离

本文介绍了Levenshtein距离的概念,它是计算字符串差异的一种方法,通过动态规划方法求解两个字符串之间的最小编辑距离。文章详细阐述了替换、插入和删除操作,并给出了C++代码实现。
摘要由CSDN通过智能技术生成

一、问题描述

        最短编辑距离(Minimum Edit Distance),也被称为Levenshtein距离,是一种计算两个字符串间的差异程度的字符串度量(string metric)。我们可以认为Levenshtein距离就是从一个字符串修改到另一个字符串时,其中编辑单个字符(比如替换、插入、删除)所需要的最少次数。                           简单例子:                                                                                                                                                给定两个单词word1,word2,找到最少的修改操作次数,使得将word1转换成word2,操作包含替换,插入,删除。

        1.替换操作:将某个字符替换成另一个字符

        2.插入操作:在某两个字符中间插入一个新的字符

        3.删除字符:删除某一个字符

        例如,word1=‘ssitten’,word2=‘sitting’,其中最短的编辑操作为

        将 word1 的第一个‘ s ’删除;将‘ e ’替换成‘ i ’;末尾处插入字符‘ g ’,所以编辑距离为3

二、动态规划

        不妨先想一想,两个字符串的最短编辑距离,只需要考虑对其中一个字符串操作即可,所以最短编辑距离的最大值一定不超过两个字符串长度的较大值(只对较短字符串进行替换和插入操作)。                                                                                                                                                         在动态规划思想中,将问题转化成一个个子问题来解决,即如何根据上述三种操作方式推导。定义 F[ i ][ j ] 为字符串1中 1 ~ i 和字符串2 1 ~ j 中的最短编辑距离,将字符串从末尾开始比较有以下递推公式。

        1.当两个字符串末尾相同时 (word1 = "intention’, word2 = ’execution‘ )

       F[9][9]=F[8][8] \, \, \, \, \, \, \, \, \, \, \, \, (s1[9]==s2[9])

                此时不需要任何操作     F[i][j]=F[i-1][j-1]   即可

        2.当两个字符串末尾不相同时,有以下三种操作。

        ① 替换操作 

        直接将 word1 中的末尾字符替换成 word2 中的末尾字符,操作数+1,此时情况为 case1 易理解。

        F[i][j]=F[i-1][j-1]+1

        ②插入操作

        在 word1 的末尾后面插入 word2 的末尾字符,操作数+1,举例说明

        例如上述样例    word1=‘ssitten’,word2=‘sitting’   此时在 word1 末尾加上 ‘ g ’ ,word1 和 word2 此时末尾字符相同,即同上述情况相同有

        F[i][j]=F[i][j-1]+1

        ③ 删除操作

        直接删除 word1 末尾的元素,考虑 F[ i-1 ] [ j ]

        F[i][j]=F[i-1][j]+1

        再考虑初始条件         F[i][0]=i \, \, \, \, \, \, \, \, \, \, F[0][j] = j

         则递推公式为:

 三、代码部分

        

#include<stdio.h>
#include<string.h>
using namespace std;
#include<iostream> 
int f[2001][2001],n;
char s1[10001],s2[10001];
int main()
{
	scanf("%s",s1);
	scanf("%s",s2);
	int l1=strlen(s1),l2=strlen(s2);
	for(int i=l1-1;i>=0;i--)
		s1[i+1]=s1[i];
	for(int j=l2-1;j>=0;j--)
		s2[j+1]=s2[j];
	for(int i=1;i<=l1;i++) f[i][0]=i;
	for(int i=1;i<=l2;i++) f[0][i]=i;
	for(int i=1;i<=l1;i++)
	for(int j=1;j<=l2;j++)
	{
		if(s1[i]==s2[j])
			f[i][j]=f[i-1][j-1];
		else 
		{
			f[i][j]=min(min(f[i-1][j-1]+1,f[i-1][j]+1),f[i][j-1]+1);  // 替换 删除 插入 
		}
	}
	printf("%d",f[l1][l2]);
	return 0; 
}

  • 28
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
动态规划是计算最短编辑距离的一种常用方法。根据给定的字符串,我们可以通过构建一个二维数组来表示最短编辑距离。假设字符串str1的长度为m,字符串str2的长度为n,我们可以定义一个大小为(m+1)×(n+1)的二维数组dp。 动态规划的推导过程如下: 1. 初始化dp数组,dp[i]表示将str1的前i个字符转换为空字符串的最小编辑距离,dp[j]表示将空字符串转换为str2的前j个字符的最小编辑距离。因此,dp[i] = i,dp[j] = j。 2. 遍历数组dp,计算dp[i][j]的值。 - 如果str1的第i个字符等于str2的第j个字符(即str1[i-1] == str2[j-1]),则dp[i][j] = dp[i-1][j-1],表示不需要进行编辑操作。 - 否则,dp[i][j]的值可以通过以下三种操作得到: - 如果将str1的前i-1个字符转换为str2的前j个字符的最小编辑距离为dp[i-1][j],则将str1的第i个字符删除,得到str1的前i-1个字符和str2的前j个字符的最小编辑距离为dp[i][j] = dp[i-1][j] + 1。 - 如果将str1的前i个字符转换为str2的前j-1个字符的最小编辑距离为dp[i][j-1],则将str2的第j个字符插入到str1的第i+1个位置,得到str1的前i个字符和str2的前j个字符的最小编辑距离为dp[i][j] = dp[i][j-1] + 1。 - 如果将str1的前i-1个字符转换为str2的前j-1个字符的最小编辑距离为dp[i-1][j-1],则将str1的第i个字符替换为str2的第j个字符,得到str1的前i个字符和str2的前j个字符的最小编辑距离为dp[i][j] = dp[i-1][j-1] + 1。 - 取上述三种操作中的最小值作为dp[i][j]的值。 3. 最终,最小编辑距离为dp[m][n]。 在本例中,示例输入为str1="ABC",str2="DCB",则根据动态规划的推导过程,可以计算得到最小编辑距离为3。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值