编辑距离问题（python实现）

有的白菜

已于 2022-04-10 10:57:05 修改

阅读量5k

点赞数 7

文章标签： python

于 2022-04-10 10:53:31 首次发布

本文链接：https://blog.csdn.net/qq_54623898/article/details/124074212

版权

文章目录

前言
一、编辑距离是什么？
二、问题分析
- python代码

前言

对于给定的字符串A和字符串B，计算其编辑距离d(A,B)，编辑距离经常用来表示两个字符串的相似度。

一、编辑距离是什么？

编辑距离是针对二个字符串（例如英文字）的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。
编辑距离可以用在自然语言处理中，例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离，判断哪一个（或哪几个）是比较可能的字。
DNA也可以视为用A、C、G和T组成的字符串，因此编辑距离也用在生物信息学中，判断二个DNA的类似程度。

二、问题分析

设待比较的两个字符分别为A[i],B[j],其中i，j分别表示A,B的第i，j个字符。
用d[i][j]表示A字串前i位与B字串前j位的编辑距离。

1、初始化：当A、B中有一个字串长度为0时，编辑距离d(A,B)等于另一个字符的长度。即，
d[i][j] = max{i,j} （min{i,j} = 0时）

2、计算剩余距离
删除操作：相当于d[i-i][j]+1
插入操作：相当于d[i][j-1]+1
替换操作：
当A[i] = B[j]时，相当于d[i-][j-1]+0
当A[i]≠B[j]时，相当于d[i-1][j-1]+1

即有，
d[i][j] = min{d[i-i][j]+1,d[i][j-1]+1,d[i-][j-1]+1} （A[i]≠B[j]）
以上即为对问题的分析。

python代码

以coffee和coffe作为例子：

#编辑距离问题
def EditDist(a,b):
    m,n = len(a)+1,len(b)+1


    d = [[0]*n for i in range(m)]

    d[0][0]=0
    for i in range(1,m):
        d[i][0] = d[i-1][0] + 1

    for j in range(1,n):
        d[0][j] = d[0][j-1]+1
    
    temp = 0

    for i in range(1,m):
        for j in range(1,n):
            if a[i-1]==b[j-1]:
                temp = 0
            else:
                temp = 1
            
            d[i][j]=min(d[i-1][j]+1,d[i][j-1]+1,d[i-1][j-1]+temp)

    #输出d[i][j]矩阵
    for i in range(m):
        print (d[i])

    return d[m-1][n-1]


ed=EditDist("coffee","coffe")
print ('编辑距离为：',ed)

运行结果如图：
在这里插入图片描述

有的白菜

关注

7
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
编辑距离问题（python实现）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、编辑距离是什么？二、问题分析python代码前言对于给定的字符串A和字符串B，计算其编辑距离d(A,B)，编辑距离经常用来表示两个字符串的相似度。提示：以下是本篇文章正文内容，下面案例可供参考一、编辑距离是什么？编辑距离是针对二个字符串（例如英文字）的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中，例如拼写检查可以根据一个拼错的字和其他正.
复制链接

扫一扫