python实现编辑距离以及回溯路径

编辑距离在自然语言处理中经常用到,例如,在英文拼写纠错中,对于一个错误单词,需要通过编辑距离找到对应的相似的候选词。

介绍

编辑距离(Levenshtein distance):

计算一个字符串转成另一个字符串所使用的最少操作数

有如下三种操作:

  • 插入一个字符
  • 删除一个字符
  • 替换一个字符

例如:

将word1 = "horse"转换为word2 = “ros”,所使用的最少操作数为3.

  • horse -> rorse (将 ‘h’ 替换为 ‘r’)
  • rorse -> rose (删除 ‘r’)
  • rose -> ros (删除 ‘e’)

将word2转成word1的最少操作数也为3.

因为上述的三个操作都有对应的逆操作,rorse -> rose (删除 ‘r’) 对应于 rose -> rorse (插入’r’)

代码

letcode 72. 编辑距离

使用动态规划的的方法来解决该问题

求解 x[:i]y[:j] 之间的编辑距离

(1) 若x[i-1] = y[j-1]: 则 x[:i]y[:j]之间的编辑距离等于 x[:i-1]y[:j-1] 之间的编辑距离
(2)否则,x[:i]y[:j] 之间的编辑距离等于以下三种情况的最小值

  • 插入: x[:i-1]y[:j] 之间的编辑距离 + 1
  • 删除: x[:i]y[:j-1] 之间的编辑距离 + 1
  • 替换: x[:i-1]y[:j-1] 之间的编辑距离 + 1

递推公式如下:

d p [ i , j ] = { d p [ i − 1 , j − 1 ]  若  i , j ≥ 0 , x i − 1 = y j − 1 min ⁡ { d p [ i , j − 1 ] , d p [ i − 1 , j ] , d p [ i − 1 , j − 1 ] } + 1  若  i , j ≥ 0 , x i − 1 ≠ y j − 1 dp[i, j]= \begin{cases} dp[i-1, j-1] & \text { 若 } i, j\geq0, x_{i-1}=y_{j-1} \\ \min\{dp[i, j-1], dp[i-1, j], dp[i-1, j-1]\} +1 & \text { 若 } i, j\geq0, x_{i-1} \neq y_{j-1}\end{cases} dp[i,j]={dp[i1,j1]min{dp[i,j1],dp[i1,j],dp[i1,j1]}+1  i,j0,xi1=yj1  i,j0,xi1=yj1

具体代码如下:

class Solution:
    def minDistance(self, word1: str, word2: str) -> int:

        m = len(word1)
        n = len(word2)
        dp = [[0] * (n + 1) for _ in range(m + 1)]
        # dp[i][j]表示word1[:i]与word2[:j]之间的编辑距离

        # 若一个字符串为空,编辑距离等于另一个字符串的长度
        for i in range(1, m + 1):
            dp[i][0] = i

        for j in range(1, n + 1):
            dp[0][j] = j

        for i in range(1, m + 1):
            for j in range(1, n + 1):
                if word1[i - 1] == word2[j - 1]:
                    dp[i][j] = dp[i - 1][j - 1]
                else:
                    dp[i][j] = min(dp[i - 1][j - 1], dp[i - 1][j], dp[i][j - 1]) + 1

        return dp[m][n]
obj = Solution()
word1 = "horse"
word2 = "ros"

res = obj.minDistance(word1, word2)
print(res)
# 3

dp矩阵如下:

ros
0123
h1123
o2212
r3222
s4332
e5443

根据dp矩阵,从后往前还回溯,得到结果:
在这里插入图片描述
代码如下:

        def backpath(self, word1, word2, dp):
        i = len(dp) - 1
        j = len(dp[0]) - 1
        res = []
        while i > 0 or j > 0:
            a = dp[i - 1][j - 1] if i > 0 and j > 0 else float("inf")
            b = dp[i - 1][j] if i > 0 else float("inf")
            c = dp[i][j - 1] if j > 0 else float("inf")
            min_val = min([a, b, c])

            if dp[i][j] == a and a == min_val:
                i -= 1
                j -= 1
                # 没有操作
            elif a == min([a, b, c]):
                #  通过替换来的
                i -= 1
                j -= 1
                res.append((i, i + 1, word1[i], word2[j], "sub"))
            elif b == min([a, b, c]):
                i = i - 1
                res.append((i, i + 1, word1[i], "", "del"))
            else:
                j = j - 1
                res.append((i + 1, i + 1, "", word2[j], "ins"))
        print(res)
        return res

输出

[(4, 5, 'e', '', 'del'), (2, 3, 'r', '', 'del'), (0, 1, 'h', 'r', 'sub')]

有时候,还需要考虑,加上操作交换相邻两个字符的情况,这种就更加复杂,称为 Damerau–Levenshtein distance

https://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旺旺棒棒冰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值