计算字符串的相似度

编辑距离: Edit Distance,又称Levenshtein距离,是指一个字符串经过增加、删除、修改后操作转变成另一个字符串所需要的最小操作次数。
相似度:等于“编辑距离+1”的倒数。所以编辑距离越小,相似度越大。

如s1 = “abc”,s2 = “ab”,其编辑距离为1,相似度为1/(1+1) = 0.5

问题:给定两个字符串,计算其相似度

解决方法:利用动态规划,先计算两个字符串的编辑距离,相似度也就很容易的得出来了

#include <iostream>
#include <string.h>
#include <math.h>

using namespace std;

int main()
{
    string s, t;
    cin >> s;
    cin >> t;
    int len_s = s.length();
    int len_t = t.length();

    int dp[len_s+1][len_t+1] = {0};
    //预处理、初始化
    for(int i = 0; i <= len_s; ++i){
        dp[i][0] = i;
    }
    for(int i = 0; i <= len_t; ++i){
        dp[0][i] = i;
    }

    for(int i = 1; i <= len_s; ++i){
        for(int j = 1; j <= len_t; ++j){
            if(s[i-1] == t[j-1]){
                dp[i][j] = dp[i-1][j-1];
            }
            else{
                dp[i][j] = 1 + min(dp[i-1][j-1], min(dp[i-1][j], dp[i][j-1]));
            }

            cout << dp[i][j] << endl;
        }
    }

    int editDist = dp[len_s][len_t];
    double similarity = 1.0/(editDist+1);

    cout << similarity << endl;
    return 0;
}
Java中可以通过编写Levenshtein Distance算法来计算字符串相似度。以下是一个基于动态规划的实现示例代码: ```java public class LevenshteinDistance { public static int calculate(String s1, String s2) { int[][] distance = new int[s1.length() + 1][s2.length() + 1]; for (int i = 0; i <= s1.length(); i++) { distance[i][0] = i; } for (int j = 1; j <= s2.length(); j++) { distance[0][j] = j; } for (int i = 1; i <= s1.length(); i++) { for (int j = 1; j <= s2.length(); j++) { int cost = s1.charAt(i - 1) == s2.charAt(j - 1) ? 0 : 1; distance[i][j] = Math.min(Math.min(distance[i - 1][j] + 1, distance[i][j - 1] + 1), distance[i - 1][j - 1] + cost); } } return distance[s1.length()][s2.length()]; } } ``` 在上述代码中,我们首先定义一个二维数组distance,用于存储字符串s1和s2之间的编辑距离。然后,我们初始化distance数组的第一行和第一列。接着,我们通过两个嵌套的循环遍历distance数组,计算编辑距离。最后,我们返回distance数组的最后一个元素,即s1和s2之间的编辑距离。 可以通过以下方式调用LevenshteinDistance类中的calculate方法来计算两个字符串之间的编辑距离: ```java String s1 = "kitten"; String s2 = "sitting"; int distance = LevenshteinDistance.calculate(s1, s2); System.out.println("编辑距离为:" + distance); ``` 运行结果为: ``` 编辑距离为:3 ``` 这表明,将字符串"kitten"转变成字符串"sitting"所需的最少操作次数为3。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值