最小编辑距离算法及其变型

引入

编辑距离(Edit Distance),又称 L e v e n s h t e i n Levenshtein Levenshtein距离,是指两个字串之间,由一个转成另一个所需的编辑操作次数。最小编辑距离,是指所需最小的编辑操作次数。

编辑操作包含:插入、删除和替换三种操作。
插入:在某个位置插入一个字符
删除:删除某个位置的字符
替换:把某个位置的字符换成另一个字符

经典做法:动态规划

这种类型的题目与 L C S LCS LCS的做法有异曲同工之妙。设 d p [ i ] [ j ] dp[i][j] dp[i][j]表示第一个字符串 s t r 1 str1 str1 i i i位与第二个字符串 s t r 2 str2 str2 j j j位进行匹配所需的最小编辑距离。
考虑 i 、 j i、j ij处的状态转移,假设第一个字符串为目标串,有以下三种情况:

  1. i − 1 、 j i-1、j i1j转移而来,即是执行插入操作,在 s t r 2 str2 str2的第 j j j位加入 s t r 1 [ i ] str1[i] str1[i]字符。
  2. i 、 j − 1 i、j-1 ij1转移而来,即是执行删除操作,删除 s t r 2 [ j ] str2[j] str2[j]
  3. i − 1 、 j − 1 i-1、j-1 i1j1转移而来,若两者不同,则执行替换操作,否则不做处理。

故转移方程为
d p [ i ] [ j ] = m i n ( d p [ i − 1 ] [ j ] + 1 , m i n ( d p [ i ] [ j − 1 ] + 1 , d p [ i − 1 ] [ j − 1 ] + f l a g ) ) ( f l a g = 0 / 1 ) dp[i][j]=min(dp[i-1][j]+1,min(dp[i][j-1]+1,dp[i-1][j-1]+flag))(flag=0/1) dp[i][j]=min(dp[i1][j]+1,min(dp[i][j1]+1,dp[i1][j1]+flag))(flag=0/1)

时间复杂度: O ( N M ) O(NM) O(NM)。空间复杂度: O ( N M ) O(NM) O(NM)
可以采用类似 L C S LCS LCS的优化方法优化时空。
L C S LCS LCS优化方法:

变式1:只有插入与删除操作

在这种情况下的答案 a n s ans ans满足:
a n s = l e n n + l e n m − 2 ∗ l c s ( s t r 1 , s t r 2 ) ans = len_n + len_m - 2*lcs(str1,str2) ans=lenn+lenm2lcs(str1,str2)

形象理解就是在去除掉两者的 L C S LCS LCS之后将 s t r 2 str2 str2清空,然后执行插入操作。

变式2:同样只有插入与删除操作,但存在最小编辑次数限制

当最小编辑次数超过 K K K时,输出 − 1 -1 1;否则输出最小编辑次数。
数据范围: l e n n , l e n m < = 501000 , K < = 100 len_n,len_m<=501000,K<=100 lennlenm<=501000K<=100
如果采用常规算法,时空都会超限。
容易观测到 K K K的值很小,主观感受 K K K应是本题的关键,猜测时间复杂度应为 O ( l e n ∗ K ) O(len*K) O(lenK)

观测原本的状态转移的限制:需要进行两重循环,计算每一个 i i i j j j对应的状态。

关键在于:离 i i i的距离大于 K K K j j j对应的状态是无用的,因为无论如何都至少需要匹配str1的前 i i i位,如果从这些 j j j进行转移,修改次数就会大于 K K K

我们可以利用这一点设计状态,优化时空。

d p [ i ] [ j ] dp[i][j] dp[i][j]表示匹配 s t r 1 str1 str1 i i i位与 s t r 2 str2 str2 i + j − K i+j-K i+jK位所需要的最小修改次数,第二维即代表两个串在该阶段匹配相差的长度,相差长度为 a b s ( j − K ) abs(j-K) abs(jK)

为方便起见,将 j j j的值整体加 K K K,方便储存数组以及进行计算,以免出现负数。

j < K j<K j<K,代表匹配的 s t r 2 str2 str2长度比 s t r 1 str1 str1

转移的情况可能为:

  1. s t r 1 [ i ] = = s t r 2 [ i + j ] − > d p [ i ] [ j ] = d p [ i − 1 ] [ j ] str1[i]==str2[i+j] -> dp[i][j]=dp[i-1][j] str1[i]==str2[i+j]>dp[i][j]=dp[i1][j](上下同时取一个字符,相对距离不变)
  2. s t r 1 [ i ] ! = s t r 2 [ i + 1 ] − > d p [ i ] [ j ] = m i n ( d p [ i − 1 ] [ j + 1 ] + 1 , d p [ i ] [ j − 1 ] + 1 ) str1[i]!=str2[i+1]->dp[i][j]=min(dp[i-1][j+1]+1,dp[i][j-1]+1) str1[i]!=str2[i+1]>dp[i][j]=min(dp[i1][j+1]+1dp[i][j1]+1)

解释: d p [ i − 1 ] [ j + 1 ] + 1 dp[i-1][j+1]+1 dp[i1][j+1]+1代表着添加操作,即是在 s t r 2 [ i + j ] str2[i+j] str2[i+j]的后面添加 s t r 1 [ i ] str1[i] str1[i],因此需要让 s t r 1 [ i − 1 ] str1[i-1] str1[i1] s t r 2 [ i + j − K ] str2[i+j-K] str2[i+jK]做好匹配并以此进行转移,这一个阶段相对长度对应的值为 j + 1 j+1 j+1,故为 d p [ i − 1 ] [ j + 1 ] dp[i-1][j+1] dp[i1][j+1]
(注意:当 j j j小于K时, j + 1 j+1 j+1代表相对距离变小,大于则代表变大)
d p [ i ] [ j − 1 ] dp[i][j-1] dp[i][j1]同理。

初始时其实应该把 s t r 2 str2 str2匹配段比 s t r 1 str1 str1匹配段短与长的两种情况分开考虑,此时添加时相对长度的变化也有所不同,但若使用将相差长度加 k k k作为第二维,在转移时相对长度的变化对应的操作就一致了。

初始化:假设目标串长度为0,则原始串只进行删除操作。
d p [ 0 ] [ i ] = i − k dp[0][i]=i-k dp[0][i]=ik
(注意此处的 i i i大于 k k k,代表原始串比目标串长)

总体时间复杂度为 O ( l e n ∗ K ) O(len*K) O(lenK),空间复杂度为 O ( l e n ∗ K ) O(len*K) O(lenK)

注意:还可以利用滚动数组,使用类似与 L C S LCS LCS的空间优化手段。

若序列的元素重复度不高,还可以利用时间优化手段求 L C S LCS LCS解决此题。

void solve(char *str1, char *str2)
{
    for(int i = k; i <= 2 * k; i++) f[0][i] =  i - k;
    for(int i = 0; i <= 2 * k + 1; i++) f[1][i] = maxn;
    for(int i = 0; i < len_n; i++)
    {
        int left_pos = max(0, i - k);
        int right_pos = min(len_m - 1, i + k);
        for( int j = left_pos; j <= right_pos; j++ )
        {
            int now_dis = j - i + k;
            if(str1[j] == str2[i])
            {
                f[1][now_dis] = f[0][now_dis]; //直接继承,长度差不变
            }   
            else 
            {
                if(now_dis == 0) f[1][now_dis] = min(f[1][now_dis], f[0][now_dis + 1] + 1);
                else f[1][now_dis] = min(f[1][now_dis], min(f[0][now_dis + 1],f[1][now_dis - 1]) + 1);
            }         
            //注意到 f[0][now_dis+1]+1与f[1][now_dis-1]+1永远都是大于等于f[0][now_dis]
        }
        for( int j = 0; j <= 2 * k; j++ )
        {
            f[0][j] = f[1][j];
            f[1][j] = maxn;
        }
    }
}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值