编辑距离java_java编辑距离

概述

编辑距离(Minimum Edit Distance,MED),由俄罗斯科学家 Vladimir Levenshtein 在1965年提出,也因此而得名 Levenshtein Distance。

在信息论、语言学和计算机科学领域,Levenshtein Distance 是用来度量两个序列相似程度的指标。通俗地来讲,编辑距离指的是在两个单词

math?formula=%3Cw_1%2Cw_2%3E之间,由其中一个单词

math?formula=w_1转换为另一个单词

math?formula=w_2所需要的最少单字符编辑操作次数。

在这里定义的单字符编辑操作有且仅有三种:

插入(Insertion)

删除(Deletion)

替换(Substitution)

譬如,"kitten" 和 "sitting" 这两个单词,由 "kitten" 转换为 "sitting" 需要的最少单字符编辑操作有:

1.kitten → sitten (substitution of "s" for "k")

2.sitten → sittin (substitution of "i" for "e")

3.sittin → sitting (insertion of "g" at the end)

因此,"kitten" 和 "sitting" 这两个单词之间的编辑距离为 3 。

JAVA实现

其实看这个概述,只有三种编辑操作方式,但是看起来还不是太明白,根本就不知道怎么实现,又插入?又删除?又替换的?后来在网上查到了一个比较简单的实现,首先定义一个二维数组,

X轴为Kitten,Y轴为sitting。其实就是有两个规则:

1)如果比较值相等,就获取标红位置的三个值中最小的一个

2)如果比较值不相等,就获取标红位置的三个值中最小一个进行+1

b204b93033af55478c12ce0d052e1bea.png

8617ac67d62e99439b53512c65c9ae8a.png

42b98318e39a79b63b60c6525e40ec6b.png

88961409ec8ab6f12c2de35fed438671.png

3c7c727885c33a5422628b994a2d4fed.png

最后一个位置就是要 把"kitten" 和 "sitting" 这两个单词之间的编辑距离为 3 。

这样就比较直观的看看出来是怎么实现的了,代码就不贴了。

int a = array2[j - 1][i];//相当于图中3的位置

int b = array2[j][i - 1];//相当于图中1的位置

int c = array2[j - 1][i - 1];//相当于图中2的位置

//比较三个值,获取最小的一个

.....

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值