Python 实现 Levenshtein Distance |Python 主题月

介绍

Levenshtein Distance 是最常用的文本编辑距离计算方法,通常用来计算两个字符串之间,从一个转变成另一个所需的最少编辑操作次数,编辑距离距离越小表示两个字符串的相似度越大,可允许的编辑操作有三种:

  • substitute,将一个字符替换成另一个字符,编辑距离一般定义为 1 ,但也可能被定义为 2
  • add,插入一个字符,编辑距离定义为 1
  • delete,删除一个字符,编辑距离定义为 1

本文通过例子详细介绍了 Levenshtein Distance 的原理,并且根据原理进行了 Python 代码的实现。

原理

这里我们用两个字符串 abc 和 yab 来说明原理,图中的 ‘’ 表示空字符串,这个图展示的是两个字符串的编辑距离细节,整个 4*4 数字矩阵有 D 表示,索引从 0 开始,纵坐标为 y ,横坐标为 x。如图中 D[1][1] 表示 y 和 a 的编辑距离为 1 。

‘’abd
‘’0123
y1123
a21
b3
这里介绍几个关键点:
  • 当计算空字符串与非空字符串的编辑距离,结果其实就是非空字符串的长度

  • 当计算 ya 变为 a 的编辑距离的时候,因为他们的最后一位字符都是 a ,所以直接将 y 变为空字符即可,这个编辑距离就是 D[1][0] ,也就是当两个字符串的最后一位字符相同的时候,D[y][x] 编辑距离就是 D[y-1][x-1]

  • 当我们将 ya 变为 ab 的时候,我们有三种不同的操作:

    1. substitute:将 a 替换为 b 编辑距离为 1 ,将 y 替换为 a 的编辑距离在图中为 D[1][1] ,两者加起来编辑距离为 2 ,也就是通过 substitute 操作计算的 D[y][x] 为 D[y-1][x-1] + 1

    2. add:在 a 后面插入 b 编辑距离为 1 ,将 ya 变为 a 编辑距离为 D[2][1] ,两者加起来编辑距离为 2 ,也就是通过 add 操作计算的 D[y][x] 为 D[y][x-1] + 1

    3. delete:将 a 删除的编辑距离为 1 ,将 y 变为 ab 的编辑距离在图中为 D[1][2] ,两者加起来编辑距离为 3 ,也就是通过 add 操作计算的 D[y][x] 为 D[y-1][x] + 1

    4. 取三种操作的最小值即位 D[y][x] 当前的值

  • 经过上面的操作,可以最终得到下面的细节,最后的结果就是右下角的最后一个值

‘’abd
‘’0123
y1123
a2123
b3212

实现

def distance(s1, s2):
    d = [[x for x in range(len(s1)+1)] for _ in range(len(s2)+1)]
    
    for y in range(1,len(s2)+1):
        d[y][0] = d[y-1][0] + 1

    for x in range(1, len(s1)+1):
        for y in range(1, len(s2)+1):
            if s1[x-1] == s2[y-1]:
                d[y][x] = d[y-1][x-1]
            else:
                substute = d[y-1][x-1] + 1
                add = d[y][x-1] + 1
                delete = d[y-1][x] + 1
                d[y][x] = min(add, substute, delete)
    return d[-1][-1]

结果

比较 abc 和 adb 的 Levenshtein Distance

print(distance('abd','yab'))

结果打印

2
  • 7
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王大丫丫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值