文本相似度算法(二):Levenshtein距离

LevenshteinDistcance即莱文斯坦距离。
https://zh.wikipedia.org/wiki/%E8%90%8A%E6%96%87%E6%96%AF%E5%9D%A6%E8%B7%9D%E9%9B%A2
http://www.cnblogs.com/ivanyb/archive/2011/11/25/2263356.html


#include<iostream>
#include<algorithm>
#include<string>
#include<cassert>
#include<fstream>

using namespace std;

char s1[100];
char s2[100];
int dp[105][105] = { 0 };
int s1_len;
int s2_len;

/* 求出两文件的最长子序列 */
int LevenshteinDistcance()
{
    s1_len = strlen(s1);
    s2_len = strlen(s2);
    int cost;

    //初始化
    for (int i = 1; i <= s1_len; i++)
        dp[i][0] = i;
    for (int j = 1; j <= s2_len; j++)
        dp[0][j] = j;

    for (int i = 1; i <= s1_len; i++)
    {
        for (int j = 1; j <= s2_len; j++)
        {
            if (s1[i - 1] == s2[j - 1])
                cost = 1;
            else
                cost = 0;
            dp[i][j] = min(min(dp[i - 1][j] + 1, dp[i][j - 1] + 1), dp[i - 1][j - 1] + cost);
        }
    }

    return dp[s1_len][s2_len];
}

int main()
{
    string file_name1("s1.txt");
    string file_name2("s2.txt");

    ifstream fin;
    fin.open(file_name1.data());
    if (!fin.is_open())
    {
        cout << file_name1 << " 无法打开\n";
        return -1;
    }
    fin.getline(s1, 100);
    fin.close();

    fin.open(file_name2.data());
    if (!fin.is_open())
    {
        cout << file_name2 << " 无法打开\n";
        return -1;
    }
    fin.getline(s2, 100);
    fin.close();

    int lev = LevenshteinDistcance();
    cout << "编辑距离为:" << lev << endl;
    cout << "相似度为:" << (1 - double(lev) / max(s1_len, s2_len)) * 100 << "%\n";

    return 0;
}
编辑距离算法是一种用来衡量字符串之间相似度算法,它可以计算出将一个字符串转换为另一个字符串所需的最小操作数。 编辑距离的计算使用了Levenshtein distance算法,该算法由俄罗斯数学家Vladimir Levenshtein在1965年提出。它通过插入、删除和替换字符来计算两个字符串之间的距离算法的基本思想是逐个比较字符串中的字符,当字符不相同时,可以选择进行插入、删除或替换操作,使得两个字符相等,从而减小距离。通过一系列的操作,最后可以得到两个字符串相等的情况。 在计算过程中,算法使用了一个维矩阵来表示两个字符串之间的距离。矩阵的行表示源字符串的字符,列表示目标字符串的字符。矩阵中的每个值表示在当前位置上,通过一系列操作所需的最小距离。通过动态规划的方式,算法逐步填充矩阵,直到计算得到整个矩阵。 计算编辑距离的过程是从左上角到右下角的遍历,每一步都考虑当前位置的字符是否相等,如果相等,则跳过该字符;如果不相等,则可以选择插入、删除或替换操作,并选择最小操作数。最后,右下角的值即为两个字符串之间的编辑距离。 编辑距离算法可以应用于许多领域,如拼写纠正、基因序列比对等。通过计算字符串之间的相似度,可以帮助我们理解文本、数据的相似性程度,从而提供更好的数据处理与分析效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值