2024年Python最全最小编辑距离 -- 解析及python实现


一、题目要求


尝试用python写一段最小编辑距离计算的代码

两个字符串之间,有一个转变成另一个所需要的操作数量

支持三种操作输入 Insertion   Deletion  Substitution

二、实验原理


编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大

给定两个字符串,求由一个转成另一个所需要的最少编辑操作次数。

在5X5的列表中,s[i][j]表示:字符串A前i个字符与字符串B前j个字符的最短编辑距离。求最小编辑距离就是把这个列表填写完,s[4][4]的值即为所求的最小编辑距离。

A|B

 

a

b

c

e

 

0

1

2

3

4

a

1

 

 

 

 

c

2

 

 

 

 

e

3

 

 

 

 

f

4

 

 

 

 

思路:

1. 当Ai和Bj的末尾字符A[i]==B[j]时,对末尾字符不需要进行编辑,  diff = 0,step[i][j] = step[i-1][j-1]

2. 当Ai和Bj的末尾字符A[i]!=B[j]时,需要对其中之一的末尾进行编辑, diff = 1

(1)先A[i-1]->B[j]再A[i]->B[j]       step[i][j] = step[i-1][j]+diff

(2)先A[i]->B[j-1]再A[i]->B[j]       step[i][j] = step[i][j-1]+diff

(3)先A[i-1]->B[j-1]再A[i]->B[j]      step[i][j] = step[i-i][j-1]+diff

取三种操作的最小值,就是Ai->Bj的最小编辑距离      step[i][j] = min(step[i-1][j], step[i][j-1], step[i-i][j-1])+diff

3.特殊情况,

if(A == null)  step[0][j] = j

if(B == null)  step[i][0] = i

4.最后step[len(A)][len(B)]即为A->B的最小标记距离。

填写表格:

1. 填写s[1]过程:

A[1]==B[1],s[1][1]=min(s[1][0],s[0][0],s[0][1])+0=0

A[1]!=B[2],s[1][2]=min(s[1][1],s[0][1],s[0][2])+1=1

A[1]!=B[3],s[1][3]=min(s[1][2],s[0][2],s[0][3])+1=2

A[1]!=B[4],s[1][4]=min(s[1][3],s[0][3],s[0][4])+1=3

A|B

 

a

b

c

e

 

0

1

2

3

4

a

1

0

1

2

3

c

2

 

 

 

 

e

3

 

 

 

 

f

4

 

 

 

 

2. 填写s[2]过程:

A[2]!=B[1],s[2][1]=min(s[2][0],s[1][0],s[1][1])+1=1

A[2]!=B[2],s[2][2]=min(s[2][1],s[1][1],s[1][2])+1=1

A[2]==B[3],s[2][3]=min(s[2][2],s[1][2],s[1][3])+0=1

A[2]!=B[4],s[2][4]=min(s[2][3],s[1][3],s[1][4])+1=2

A|B

 

a

b

c

e

 

0

1

2

3

4

a

1

0

1

2

3

c

2

1

1

1

2

e

3

 

 

 

 

f

4

 

 

 

 

3. 填写s[3]过程:

A[3]!=B[1],s[3][1]=min(s[3][0],s[2][0],s[2][1])+1=2

A[3]!=B[2],s[3][2]=min(s[3][1],s[2][1],s[2][2])+1=2

A[3]!=B[3],s[3][3]=min(s[3][2],s[2][2],s[2][3])+1=2

A[3]==B[4],s[3][4]=min(s[3][3],s[2][3],s[3][4])+0=1

A|B

 

a

b

c

e

 

0

1

2

3

4

a

1

0

1

2

3

c

2

1

1

1

2

e

3

2

2

2

1

f

4

 

 

 

 

4. 填写s[4]过程:

A[4]!=B[1],s[4][1]=min(s[4][0],s[3][0],s[3][1])+1=3

A[4]!=B[2],s[4][2]=min(s[4][1],s[3][1],s[3][2])+1=3

A[4]!=B[3],s[4][3]=min(s[4][2],s[3][2],s[3][3])+1=3

A[4]!=B[4],s[4][4]=min(s[4][3],s[3][3],s[3][4])+1=2

A|B

 

a

b

c

e

 

0

1

2

3

4

a

1

0

1

2

3

c

2

1

1

1

2

e

3

2

2

2

1

f

4

3

3

3

2

所以A—>B编辑距离为2次,操作为:acef在字符ac之间插入字符b,删除字符f

三、实验代码


1. 方法一:递归

A = input(“输入字符串1:”)

B = input(“输入字符串2:”)

def recursive_edit_distance(str_a, str_b):

if len(str_a) == 0:

return len(str_b)

elif len(str_b) == 0:

return len(str_a)

elif str_a[len(str_a)-1] == str_b[len(str_b)-1]:

return recursive_edit_distance(str_a[0:-1], str_b[0:-1])

else:

return min([

recursive_edit_distance(str_a[:-1], str_b),

recursive_edit_distance(str_a, str_b[:-1]),

recursive_edit_distance(str_a[:-1], str_b[:-1])

]) + 1

print(recursive_edit_distance(A, B))

2. 方法二:动态规划

import nltk

A = input(“输入字符串1:”)

B = input(“输入字符串2:”)

def minDistance(w1, w2):

m, n = len(w1),len(w2)

if(m == 0):

return m

if(n == 0):

return n

step = [[0]*(n+1)for _ in range(m + 1)]

for i in range(1, m+1):step[i][0]=i

for j in range(1, n+1):step[0][j]=j

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 12
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值