莱文斯坦距离

莱文斯坦距离(Levenshtein distance),也被称为编辑距离(Edit distance),用于度量两个字符串之间的相似度,表示将一个字符串转换为另一个字符串所需的最小编辑操作次数,编辑操作包括插入、删除和替换字符。莱文斯坦距离可以用以下的递推公式来表示:

d[i, j] = 
  | 0                                        if i = 0 and j = 0
  | i                                        if j = 0
  | j                                        if i = 0
  | d[i-1, j-1]                              if s1[i] = s2[j]
  | min(d[i-1, j] + 1, d[i, j-1] + 1, d[i-1, j-1] + 1)  if s1[i] ≠ s2[j]

其中,d[i, j] 表示将字符串 s1 的前 i 个字符转换为字符串 s2 的前 j 个字符所需的编辑操作次数。

可以使用动态规划方法来计算莱文斯坦距离。初始化一个二维数组 d,根据上述递推公式填充这个数组,最终的莱文斯坦距离为 d[len(s1)][len(s2)],其中 len(s1)len(s2) 分别表示两个字符串的长度。

## python实现

def levenshtein_distance(s1, s2):
    # 初始化一个二维数组,用于存储编辑距离
    dp = [[0] * (len(s2) + 1) for _ in range(len(s1) + 1)]

    # 初始化第一行和第一列
    for i in range(len(s1) + 1):
        dp[i][0] = i
    for j in range(len(s2) + 1):
        dp[0][j] = j

    # 填充编辑距离矩阵
    for i in range(1, len(s1) + 1):
        for j in range(1, len(s2) + 1):
            cost = 0 if s1[i - 1] == s2[j - 1] else 1
            dp[i][j] = min(dp[i - 1][j] + 1, dp[i][j - 1] + 1, dp[i - 1][j - 1] + cost)

    # 编辑距离为矩阵的右下角值
    distance = dp[len(s1)][len(s2]

    # 计算相似度度量,一般来说,距离越小,相似度越高
    max_length = max(len(s1), len(s2))
    similarity = 1 - (distance / max_length)
    
    return similarity

# 例子
str1 = "kitten"
str2 = "sitting"
similarity = levenshtein_distance(str1, str2)
print(f"编辑距离:{levenshtein_distance}, 相似度:{similarity}")

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值