编辑距离

定义 编辑距离(Edit Distance)又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。
许可的编辑操作只包括三种:
(1)将一个字符替换成另一个字符, 例如, xyz -> xym
(2)插入一个字符,例如,xy -> xyz
(3)删除一个字符,例如,xyz -> xy

1. 分治思想

用分治的思想解决比较简单,将复杂的问题分解成相似的子问题

假设字符串 a, 共 m 位,从 a[0] 到 a[m-1];字符串 b, 共 n 位,从 b[0] 到 b[n-1], d[i][j] 表示字符串 a[0]->a[i+1] 转换为 b[0]->b[j+1] 的编辑距离。

那么有如下递归规律(a[i] 和 b[j] 分别是字符串 a 和 b 的最后一位):

当 a[i] 等于 b[j] 时,d[i][j] = d[i-1][j-1], 比如 xyz -> xnz 的编辑距离等于 xy -> xn 的编辑距离
当 a[i] 不等于 b[j] 时,d[i][j] 等于如下 3 项的最小值,分别对应三种操作:
    d[i-1][j] + 1(删除操作:1. 将a[0]-->a[i]变成a[0]-->a[i-1],2.将a[0]-->a[i-1]变成b[0]-->b[j])
    d[i][j-1] + 1(插入操作:1. 将a[0]-->a[i]变成b[0]-->b[j-1],2.将b[0]-->b[j-1]变成b[0]-->b[j]), 
    d[i-1][j-1] + 1(替换操作:将 a[i] 替换为 b[j])

递归边界:

a[i][0] = i, b 字符串为空,表示将 a[1]-a[i] 全部删除,所以编辑距离为 i
a[0][j] = j, a 字符串为空,表示 a 插入 b[1]-b[j],所以编辑距离为 j

python代码如下:

def editDistance(str_a, str_b):
    # 查询递归边界
    if len(str_a) == 0:
        return len(str_b)
    if len(str_b) == 0:
        return len(str_a)

    # 递归
    if str_a[-1] == str_b[-1]:
        return editDistance(str_a[0:-1],str_b[0:-1])
    if str_a[-1] != str_b[-1]:
        return min(editDistance(str_a[0:-1],str_b)+1,editDistance(str_a,str_b[0:-1])+1,editDistance(str_a[0:-1],str_b[0:-1])+1)
str_a = u'床前明月光,疑是地上霜,举头望明月,低头思故乡'
str_b = u'床前明月光,地上有张床,举头望明月,地头有蚊香'
% time print editDistance(str_a,str_b)
9
CPU times: user 8 ms, sys: 0 ns, total: 8 ms
Wall time: 27.4 ms
2. 动态规划

观察分治思想的方法,得出,要求解d[i][j],只需要得到d[i-1][j-1],d[i][j-1],d[i-1][j]即可。那我们可以将问题从前往后算。我们可以先算出d[0][0]到d[0][j]以及d[0][0]到d[i][0],然后,将矩阵d从前到后,从上往下依次计算出来,最后,d[m-1][n-1]即是我们需要的结果。时间复杂度 o(m×n)

import numpy as np

def editDistance(str_a, str_b):
    # 初始矩阵
    matrix_row_lengh = len(str_a)
    matrix_column_lengh = len(str_b)

    matrix = np.zeros([matrix_row_lengh,matrix_column_lengh])
    matrix[0,:] = range(matrix_column_lengh)
    matrix[:,0] = range(matrix_row_lengh)

    for i in np.arange(1, matrix_row_lengh):
        for j in np.arange(1,matrix_column_lengh):
            if str_a[i] == str_b[j]:
                matrix[i,j] = matrix[i-1,j-1]
            else:
                matrix[i,j] = min(matrix[i-1,j-1] + 1, matrix[i-1,j] + 1, matrix[i,j-1] + 1)
    return matrix[matrix_row_lengh-1,matrix_column_lengh-1]
str_a = u'床前明月光,疑是地上霜,举头望明月,低头思故乡'
str_b = u'床前明月光,地上有张床,举头望明月,地头有蚊香'
% time print editDistance(str_a,str_b)
9.0
CPU times: user 8 ms, sys: 0 ns, total: 8 ms
Wall time: 5.71 ms

观察cpu的运行时间,动态规划的时间明显比分之思想的时间快。

3. 动态规划优化

观察普通的动态规划,其实要求解d[m-1][n-1],我们在循环过程中,只用到了三个值,d[i-1][j-1],d[i][j-1],d[i-1][j],即,每次循环,我们只需要矩阵d的上一行信息就可以了。这样,我们将空间复杂度从 o(m×n) 缩减到了 o(n)

import numpy as np

def editDistance(str_a, str_b):
    # 初始化
    array_len = len(str_b)
    old_array = list(range(array_len))

    for i in np.arange(1,len(str_a)):
        new_array = list(range(array_len))
        new_array[0] = i

        for j in np.arange(1,len(str_b)):
            if str_a[i] == str_b[j]:
                new_array[j] = old_array[j-1]
            else:
                new_array[j] = min(old_array[j-1] + 1, old_array[j] + 1, new_array[j-1] + 1)

        old_array = new_array
    return old_array[array_len-1] 
str_a = u'床前明月光,疑是地上霜,举头望明月,低头思故乡'
str_b = u'床前明月光,地上有张床,举头望明月,地头有蚊香'
% time print editDistance(str_a,str_b)
9
CPU times: user 4 ms, sys: 0 ns, total: 4 ms
Wall time: 3.44 ms
4. python中涉及到的相关模块

from fuzzywuzzy import fuzz
print fuzz.ratio(str_a,str_b)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值