编辑距离
编辑距离定义:
将一个字符串A通过增、删、变的操作变成另一个字符串B需要的最少操作数
比如:A = ‘FAMILY’ , B = ‘FRAME’, 将s1变成s2的最小操作数是4.
思路分析:
状态表示:我们令d[i] [j]表示A字符串前i个元素变成B字符串前j个元素的最少操作数。
初始化:
初始化的目的是让后续的自底向上计算最优值正确,当然初始化赋值结果也不难理解。
对于i = 0时候,即A取空字符串,如果A字符串要转换成B字符串,随着B内元素个数j增加执行插入操作次数也随之增加,即:
//lenb为B字符串的长度
for(int j = 0; j <= lenb; j ++)d[0][j] = j;
对于j = 0时候,即B取空字符串,如果A字符串要转换成B字符串,随着B内元素个数j增加执行删除操作次数也随之增加,即:
//lena为A字符串的长度
for(int i = 0; i <= lena; i ++)d[i][0] = i;
讨论:
根据A字符串和B字符串最后一个元素进行划分、讨论,从最优解子解得到最优解f[i] [j].
1)A的最后一个元素Ai 等于 B的最后一个元素Bj(即两者最后一个元素相互匹配)
从最优子状态d[i - 1] [j - 1]递推过来,因为匹配,所以不用进行任何操作,即操作数为0
问:为什么是从d[i - 1][j - 1]递推过来的?
答:这里让元素Ai - 1 和 元素Bj - 1对齐,才能使操作数最小,所以就是从状态d[i - 1][j - 1]这个最优状态转移过来,对于其他对齐方案Ai-1元素和Bj元素对齐d[i - 1][j]和Ai元素和Bj - 1元素对齐d[i][j - 1]的最优值都是大于等于 d[i - 1][j - 1];
d[i][j] = d[i - 1][j - 1] + 0;
2)A的最后一个元素Ai != B的最后一个元素Bj(即两者最后一个元素不匹配)
(1)Ai - 1 与 Bj对齐时,需要的操作数最少:
那么我们就从最优子状态d[i - 1] [j]递推过来,对A字符串删除Ai, 就可以让A字符串变成B字符串
d[i][j] = d[i - 1][j] + 1;
(2)Ai 与 Bj - 1对齐时,需要的操作数最少:
那么我们就从最优子状态d[i ] [j - 1]递推过来,对A字符串插入Bj, 就可以让A字符串变成B字符串
d[i][j] = d[i][j - 1] + 1;
(3)Ai-1与Bj-1对齐,需要的操作数最少:
纳闷我们就从最优子状态d[i- 1] [j - 1]递推过来,将Ai字符替换为Bj, 就可以让A字符串变成B字符串
d[i][j] = d[i - 1][j - 1] + 1;
综上所述:
d[i][j] = min({d[i -1 ][j] + 1, d[i][j - 1] + 1, d[i][j] + diff})
/*
如果Ai == Bj diff = 0;
如果Ai != Bj diff = 1;
*/
代码:
#include <iostream>
#include <algorithm>
#include <cmath>
using namespace std;
const int N = 1e3 + 5;
int lena, lenb, diff;
string A, B;
int f[N][N];
int main(){
cin >> A >> B;
lena = A.size();
lenb = B.size();
f[0][0] = 1;
for(int i = 0; i <= lena; i ++)f[i][0] = i;
for(int j = 0; j <= lenb; j ++)f[0][j] = j;
for(int i = 1; i <= lena; i ++){
for(int j = 1; j <= lenb; j ++){
if(A[i - 1] == B[j - 1])diff = 0;
else diff = 1;
f[i][j] = min({f[i - 1][j] + 1, f[i][j - 1] + 1, f[i - 1][j - 1] + diff});
}
}
cout << f[lena][lenb] << '\n';
return 0;
}
/*
状态表示:f[i][j]
集合:A前i个元素变成B前j个元素需要的最少操作数
属性:min
*/