编辑距离

27 篇文章 0 订阅

问题:

给定两个字符串 A和B,由A转成B所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
例如将A(kitten)转成B(sitting):
sitten (k→s)替换
sittin (e→i)替换
sitting (→g)插入

思路:

如果我们用 i 表示当前字符串 A 的下标,j 表示当前字符串 B 的下标。 如果我们用d[i, j] 来表示A[1, ... , i] B[1, ... , j] 之间的最少编辑操作数。那么我们会有以下发现:

1. d[0, j] = j;

2. d[i, 0] = i;

3. d[i, j] = d[i-1, j - 1] if A[i] == B[j]

4. d[i, j] = min(d[i-1, j - 1], d[i, j - 1], d[i-1, j]) + 1  if A[i] != B[j]

所以,要找出最小编辑操作数,只需要从底自上判断就可以了。伪代码如下:

  1. int LevenshteinDistance(char s[1..m], char t[1..n])  
  2. {  
  3.   // for all i and j, d[i,j] will hold the Levenshtein distance between  
  4.   // the first i characters of s and the first j characters of t;  
  5.   // note that d has (m+1)x(n+1) values  
  6.   declare int d[0..m, 0..n]  
  7.   
  8.   for i from 0 to m  
  9.     d[i, 0] := i // the distance of any first string to an empty second string  
  10.   for j from 0 to n  
  11.     d[0, j] := j // the distance of any second string to an empty first string  
  12.   
  13.   for j from 1 to n  
  14.   {  
  15.     for i from 1 to m  
  16.     {  
  17.       if s[i] = t[j] then    
  18.         d[i, j] := d[i-1, j-1]       // no operation required  
  19.       else  
  20.         d[i, j] := minimum  
  21.                    (  
  22.                      d[i-1, j] + 1,  // a deletion  
  23.                      d[i, j-1] + 1,  // an insertion  
  24.                      d[i-1, j-1] + 1 // a substitution  
  25.                    )  
  26.     }  
  27.   }  
  28.   
  29.   return d[m,n]  


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
编辑距离是指两个字符串之间,通过一系列的操作(删除、插入、替换)将一个字符串转换成另一个字符串所需的最小次数。在Python中,有多种方法可以计算编辑距离。 一种方法是使用第三方库Levenshtein,通过调用Levenshtein.distance(str1, str2)方法来计算编辑距离。这个方法使用了优化的算法结构,内部调用了C库,因此执行速度比自己编写的代码更快。 另一种方法是使用动态规划(DP)算法,可以通过编写自己的代码来计算编辑距离。下面是一个简单的使用Python的列表实现的例子: ```python def edit_distance(str1, str2): matrix = [[i + j for j in range(len(str2) + 1)] for i in range(len(str1) + 1)] for i in range(1, len(str1) + 1): for j in range(1, len(str2) + 1): if str1[i - 1 == str2[j - 1]: d = 0 else: d = 1 matrix[i][j = min(matrix[i - 1][j + 1, matrix[i][j - 1 + 1, matrix[i - 1][j - 1 + d) return matrix[len(str1)][len(str2)] ``` 这个算法使用了一个二维矩阵来存储中间结果,通过动态规划的方式逐步计算出最小编辑次数。 编辑距离是一个常用的字符串相似性度量方法,它可以用于文本纠错、DNA序列比对等领域。它的应用很广泛,可以在自然语言处理(NLP)任务中起到重要的作用。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [编辑距离算法详解和python代码](https://blog.csdn.net/weixin_41665541/article/details/84942196)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值