概念:
字符串的编辑距离,又称为Levenshtein距离,由俄罗斯的数学家Vladimir Levenshtein在1965年提出。是指利用字符操作,把字符串A转换成字符串B所需要的最少操作数。其中,字符操作包括:
⋅
\cdot
⋅ 删除字符
⋅
\cdot
⋅ 添加字符
⋅
\cdot
⋅ 修改字符
一般来说,两个字符串的编辑距离越小,则它们越相似。如果两个字符串相等,则它们的编辑距离为0。
原理:
首先考虑A串的第一个字符
假设存在两个字符串A和B,他们的长度分别是lenA和lenB。首先考虑第一个字符,由于他们是一样的,所以只需要计算A[2…lenA]和B[2…lenB]之间的距离即可。那么如果两个字符串的第一个字符不一样怎么办?可以考虑把第一个字符变成一样的(这里假设从A串变成B串):
1)修改A串的第一个字符成B串的第一个字符,之后仅需要计算A[2…lenA]和B[2…lenB]的距离即可;
2)删除A串的第一个字符,之后仅需要计算A[2…lenA]和B[1…lenB]的距离即可;
3)把B串的第一个字符插入到A串的第一个字符之前,之后仅需要计算A[1…lenA]和B[2…lenB]的距离即可。
接下来考虑A串的第i个字符和B串的第j个字符。
我们这个时候不考虑A的前i-1字符和B串的第j-1个字符。如果A串的第i个字符和B串的第j个字符相等,即A[i]=B[j],则只需要计算A[i…lenA]和B[j…lenB]之间的距离即可。如果不想等,则:
1)修改A串的第i个字符成B串的第j个字符,之后仅需要计算A[i+1…lenA]和B[j+1…lenB]的距离即可;
2)删除A串的第i个字符,之后仅需要计算A[i+1…lenA]和B[j…lenB]的距离即可;
3)把B串的第j个字符插入到A串的第i个字符之前,之后仅需要计算A[i…lenA]和B[j+1…lenB]的距离即可。
/**
* levenshtein (edit distance)
*/
public class LevenshteinTest {
public static int similary(String str1,String str2) {
int[][] dp = new int[str1.length()+1][str2.length()+1];
int dis = calculateDis(str1, str1.length(), str2, str2.length(), dp);
return dis;
}
public static int calculateDis(String str1,int index1,String str2,int index2,int[][] dp){
if(index1==0 && index2==0){
dp[index1][index2] = 0;
return 0;
}
if(index1==0 && index2>0){
dp[index1][index2] = index2;
return index2;
}
if(index1>0 && index2==0){
dp[index1][index2] = index1;
return index1;
}
int t1 = calculateDis(str1, index1-1, str2, index2, dp)+1;
int t2 = calculateDis(str1, index1, str2, index2-1, dp)+1;
int t3 = calculateDis(str1, index1-1, str2, index2-1, dp);
if(str1.charAt(index1-1)!=str2.charAt(index2-1)){
t3 = t3+1;
}
int result = min(t1,t2,t3);
dp[index1][index2] = result;
return result;
}
private static int min(int a,int b,int c){
return a<b?(a<c?a:c):(b<c?b:c);
}
}