莱文斯坦距离(Levenshtein distance),也被称为编辑距离(Edit distance),用于度量两个字符串之间的相似度,表示将一个字符串转换为另一个字符串所需的最小编辑操作次数,编辑操作包括插入、删除和替换字符。莱文斯坦距离可以用以下的递推公式来表示:
d[i, j] =
| 0 if i = 0 and j = 0
| i if j = 0
| j if i = 0
| d[i-1, j-1] if s1[i] = s2[j]
| min(d[i-1, j] + 1, d[i, j-1] + 1, d[i-1, j-1] + 1) if s1[i] ≠ s2[j]
其中,d[i, j]
表示将字符串 s1
的前 i
个字符转换为字符串 s2
的前 j
个字符所需的编辑操作次数。
可以使用动态规划方法来计算莱文斯坦距离。初始化一个二维数组 d
,根据上述递推公式填充这个数组,最终的莱文斯坦距离为 d[len(s1)][len(s2)]
,其中 len(s1)
和 len(s2)
分别表示两个字符串的长度。
## python实现
def levenshtein_distance(s1, s2):
# 初始化一个二维数组,用于存储编辑距离
dp = [[0] * (len(s2) + 1) for _ in range(len(s1) + 1)]
# 初始化第一行和第一列
for i in range(len(s1) + 1):
dp[i][0] = i
for j in range(len(s2) + 1):
dp[0][j] = j
# 填充编辑距离矩阵
for i in range(1, len(s1) + 1):
for j in range(1, len(s2) + 1):
cost = 0 if s1[i - 1] == s2[j - 1] else 1
dp[i][j] = min(dp[i - 1][j] + 1, dp[i][j - 1] + 1, dp[i - 1][j - 1] + cost)
# 编辑距离为矩阵的右下角值
distance = dp[len(s1)][len(s2]
# 计算相似度度量,一般来说,距离越小,相似度越高
max_length = max(len(s1), len(s2))
similarity = 1 - (distance / max_length)
return similarity
# 例子
str1 = "kitten"
str2 = "sitting"
similarity = levenshtein_distance(str1, str2)
print(f"编辑距离:{levenshtein_distance}, 相似度:{similarity}")