最短编辑距离

概念:
字符串的编辑距离,又称为Levenshtein距离,由俄罗斯的数学家Vladimir Levenshtein在1965年提出。是指利用字符操作,把字符串A转换成字符串B所需要的最少操作数。其中,字符操作包括:
⋅ \cdot 删除字符
⋅ \cdot 添加字符
⋅ \cdot 修改字符
一般来说,两个字符串的编辑距离越小,则它们越相似。如果两个字符串相等,则它们的编辑距离为0。

原理:
首先考虑A串的第一个字符
假设存在两个字符串A和B,他们的长度分别是lenA和lenB。首先考虑第一个字符,由于他们是一样的,所以只需要计算A[2…lenA]和B[2…lenB]之间的距离即可。那么如果两个字符串的第一个字符不一样怎么办?可以考虑把第一个字符变成一样的(这里假设从A串变成B串):
1)修改A串的第一个字符成B串的第一个字符,之后仅需要计算A[2…lenA]和B[2…lenB]的距离即可;
2)删除A串的第一个字符,之后仅需要计算A[2…lenA]和B[1…lenB]的距离即可;
3)把B串的第一个字符插入到A串的第一个字符之前,之后仅需要计算A[1…lenA]和B[2…lenB]的距离即可。

接下来考虑A串的第i个字符和B串的第j个字符。
我们这个时候不考虑A的前i-1字符和B串的第j-1个字符。如果A串的第i个字符和B串的第j个字符相等,即A[i]=B[j],则只需要计算A[i…lenA]和B[j…lenB]之间的距离即可。如果不想等,则:
1)修改A串的第i个字符成B串的第j个字符,之后仅需要计算A[i+1…lenA]和B[j+1…lenB]的距离即可;
2)删除A串的第i个字符,之后仅需要计算A[i+1…lenA]和B[j…lenB]的距离即可;
3)把B串的第j个字符插入到A串的第i个字符之前,之后仅需要计算A[i…lenA]和B[j+1…lenB]的距离即可。

/**
* levenshtein (edit distance)
*/
public class LevenshteinTest {
    public static int similary(String str1,String str2) {
        int[][] dp = new int[str1.length()+1][str2.length()+1];
        int dis = calculateDis(str1, str1.length(), str2, str2.length(), dp);
        return dis;
        
    }
    public static int calculateDis(String str1,int index1,String str2,int index2,int[][] dp){
        if(index1==0 && index2==0){
            dp[index1][index2] = 0;
            return 0;
        }
        
        if(index1==0 && index2>0){
            dp[index1][index2] = index2;
            return index2;
        }
        
        if(index1>0 && index2==0){
            dp[index1][index2] = index1;
            return index1;
        }
        
        int t1 = calculateDis(str1, index1-1, str2, index2, dp)+1;
        int t2 = calculateDis(str1, index1, str2, index2-1, dp)+1;
        int t3 = calculateDis(str1, index1-1, str2, index2-1, dp);
        if(str1.charAt(index1-1)!=str2.charAt(index2-1)){
            t3 = t3+1;
        }
        int result =  min(t1,t2,t3);
        dp[index1][index2] = result;
        return result;
        
    }
    
    private static int min(int a,int b,int c){
        return a<b?(a<c?a:c):(b<c?b:c);
    }
}



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值