编辑距离(Edit Distance) 一文读懂(Python实现)

编辑距离是一种衡量两个字符串相似度的方法,通过计算插入、删除、替换操作的最小次数。本文介绍了编辑距离的概念、算法,以Python代码实现,并探讨其在NLP中的应用,如拼写纠错和字符串比对。
摘要由CSDN通过智能技术生成

在NLP任务中经常会碰到比较两个字符串的相似度,比如拼写纠错和指代判断。用户很可能在搜索时输入错别字,比如“微信”输成了“为信”,但是搜索引擎返回的结果纠正为“微信”的搜索结果,如图1-1。另外比如“北京大学校长”和“北大校长”,“北京故宫博物院”和“北京故宫”都是指的同一个人或事物。

上述问题,可以利用两个词或短语的编辑距离大小来解决。

图1-1 搜索词“为信”的百度结果

 

编辑距离介绍

利用编辑距离可以判断两个字符串的相似程度,即从一个字符串到另一个字符串所需要的编辑次数,包括插入字符,删除字符及替换字符这三种操作。最小编辑距离即从一个字符串到另一个字符串所需要的最小编辑次数。

在这里定义的单字符编辑操作有且仅有三种:

  • 插入(Insertion)
  • 删除(Deletion)
  • 替换(Substitution)

图2-1所示将两个字符串进行排列比对,上面的字符串INTENTION进行一系列操作可以变为下面的字符串EXECUTION,  d代表删除字符操作,s代表替换字符操作,i代表插入字符操作。

图2-1 编辑距离计算

 

可以给不同的操作赋予不同代价值,莱温斯坦(Levenshtein)定义该编辑距离最简单的方式是给每种操作赋予相同的代价值1,这样上述两个字符串的编辑距离为5。莱温斯坦另外一种定义只允许插入和删除操作,不允许替换操作。这样相当于替换用插入和删除两种操作实现,替换的代价值相当于变成2,上述两个字符串的编辑距离为8。

 

最小编辑距离算法

那么如何找到最小编辑距离呢?可以看作是一种操作路径的搜索,从一个字符串转变为另一个字符串的最短搜索路径。图3-1描述了intention字符串经过三种不同的操作路径,转变为三个不同的字符串。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值