在NLP任务中经常会碰到比较两个字符串的相似度,比如拼写纠错和指代判断。用户很可能在搜索时输入错别字,比如“微信”输成了“为信”,但是搜索引擎返回的结果纠正为“微信”的搜索结果,如图1-1。另外比如“北京大学校长”和“北大校长”,“北京故宫博物院”和“北京故宫”都是指的同一个人或事物。
上述问题,可以利用两个词或短语的编辑距离大小来解决。
图1-1 搜索词“为信”的百度结果
编辑距离介绍
利用编辑距离可以判断两个字符串的相似程度,即从一个字符串到另一个字符串所需要的编辑次数,包括插入字符,删除字符及替换字符这三种操作。最小编辑距离即从一个字符串到另一个字符串所需要的最小编辑次数。
在这里定义的单字符编辑操作有且仅有三种:
- 插入(Insertion)
- 删除(Deletion)
- 替换(Substitution)
图2-1所示将两个字符串进行排列比对,上面的字符串INTENTION进行一系列操作可以变为下面的字符串EXECUTION, d代表删除字符操作,s代表替换字符操作,i代表插入字符操作。
图2-1 编辑距离计算
可以给不同的操作赋予不同代价值,莱温斯坦(Levenshtein)定义该编辑距离最简单的方式是给每种操作赋予相同的代价值1,这样上述两个字符串的编辑距离为5。莱温斯坦另外一种定义只允许插入和删除操作,不允许替换操作。这样相当于替换用插入和删除两种操作实现,替换的代价值相当于变成2,上述两个字符串的编辑距离为8。
最小编辑距离算法
那么如何找到最小编辑距离呢?可以看作是一种操作路径的搜索,从一个字符串转变为另一个字符串的最短搜索路径。图3-1描述了intention字符串经过三种不同的操作路径,转变为三个不同的字符串。