计算两个字符串的距离,即两个字符串不同的位数
input:string1,string2
output:两个字符串间的距离,即两个字符串不同的位数之和
example1:
string1 = “1234”
string2 = “12345”
distance = 1
example2:
string1 = “12534”
string2 = “12435”
distance = 2
思想:利用动态规划法
设置一个tbl矩阵,大小为(len1 + 1)*(len2 + 1)
用一个双重循环计算矩阵tbl中每一个位置的值
tbl [ i, j ]存储的就是计算到第 i 行,第 j 列的(即第一个字符的i位置,第二个字符的j位置)编辑距离
画图如下,*字符所在位置是要计算出来的,计算顺序为从左至右,从上至下,其他值是初始化给定的,设为距离的最大值
动态规划的公式为
0 1 2 3 4 5
1 * * * * *
2 * * * * *
3 * * * * *
4 * * * * *
cost = 0 if string1[i - 1] == string2[j - 1] else 1
tb[i, j] 是三条路径中的最小值,三条路径分别为
tbl[i, j - 1] + 1
tbl[i - 1, j] + 1
tbl[i - 1, j - 1] + cost
tbl[i, j] = min(tbl[i, j - 1] + 1, tbl[i - 1, j] + 1, tbl[i - 1, j - 1] + cost)
// python code
def edit_distance(string1, string2):
len1 = len(string1) + 1
len2 = len(string2) + 1
tbl = {}
for i in range(len1):
tbl[i, 0] = i
for j in range(len2):
tbl[0, j] = j
for i in range(1, len1):
for j in range(1, len2):
cost = 0 if string1[i - 1] == string2[j - 1] else 1
tbl[i, j] = min(tbl[i, j - 1] + 1, tbl[i - 1, j] + 1, tbl[i - 1, j - 1] + cost)
return tbl[i, j]
代码来源:https://github.com/openvinotoolkit/training_extensions/blob/develop/misc/tensorflow_toolkit/lpr/lpr/utils.py