编辑距离算法之Jaro-Winkler Distance

概述

Jaro-Winkler Distance是一个度量两个字符序列之间的编辑距离的字符串度量标准,是由William E. Winkler在1990年提出的Jaro Distance度量标准的一种变体。Jaro Distance是两个单词之间由一个转换为另一个所需的单字符转换的最小数量。Jaro-Winkler Distance通过前缀因子p使Jaro Distance相同时共同前缀长度l越大的相似度越高。Jaro–Winkler Distance越小,两个字符串越相似。如果分数是0,则表示完全不同,分数为1则表示完全匹配。Jaro–Winkler相似度是1 - Jaro–Winkler Distance。

Jaro相似度

对于给定的两个字符串^{S_{1}} 和^{S_{2}},相似度^{Sim_{j}},计算公式如下:

Sim_{j} = \begin{cases} 0 & \text{if m=0} \\ \frac{1}{3}\left ( {\frac{m}{\left | {S_{1}} \right |}}+{\frac{m}{\left | {S_{2}} \right |}}+{\frac{m-t}{m}} \right ) & \text{otherwise} \end{cases}

其中:

  • \left | {S_{i}} \right |是字符串{S_{i}} 的长度。
  • m是匹配的字符数量。
  • t是字符转换的次数。

只有当^{S_{1}} 和^{S_{2}}的字符相同,且距离不超过\dpi{100} \left \lfloor \frac{max(\left | S_{1} \right |,\left |S_{2}\right |)}{2} \right \rfloor-1 时才认为两个字符是匹配的。将^{S_{1}}^{S_{2}}匹配的字符进行比较,相同位置但字符不同的字符数除以2就是要转换的次数t

匹配窗口

上面提到了字符匹配的问题,那么什么情况下才是匹配的呢?这里就需要提到匹配窗口(matching window)的概念了。

Jaro算法的字符之间的比较是限定在一个范围内的,如果在这个范围内两个字符相等,那么表示匹配成功,如果超出了这个范围,表示匹配失败。而这个范围就是匹配窗口,在Jaro算法中,它被定义为不超过下面表达式的值:
匹配窗口公式(图片来自Wiki百科)
比如说字符串A(“bacde”)和B(“abed”),它的匹配窗口大小为1,在匹配的过程中,字符’a’、‘b’、‘d’都是匹配的,indexInA(‘d’) = 3,indexInB(‘d’) = 3,二者的距离是0,小于匹配窗口大小。但对于’e’,虽然两字符串都有’e’这个字符,但它们却是不匹配的,因为’e’的下标分别为4和2,距离为2 > mw,所以’e’是不匹配的。在这个例子中,由于有3个字符匹配,因此m = 3。换位数目表示不同顺序的匹配字符的个数。同样看这个例子,'a’和’b’都是匹配的,但’a’和’b’在两个字符串的表示为"ba…“和"ab…”,它们的顺序不同,因此这里换位数目transpositions = 2,而t = transpositions / 2 = 1。

对于匹配窗口的含义,笔者的理解是:匹配窗口是一个阈值,在这个阈值之内两个字符相等,可以认为是匹配的;超过了这个阈值,即使存在另一个字符与该字符相等,但由于它们的距离太远了,二者的相关性太低了,不能认为它们是匹配的。从上面的公式可以看出,该算法强调的是局部相似度

对于任意字符串A和B,能求出它们的length、m和t,这样便能代入公式求得二者的相似度(Jaro similarity)。从刚才的例子得到,|s1|=5,|s2|=4,m=3,t=1,代入公式可得:simj = (3/5 + 3/4 + (3-1)/3)/3 = 0.672

Jaro-Winkler相似度

对于给定的两个字符串^{S_{1}} 和^{S_{2}},相似度^{Sim_{w}},计算公式如下:

Sim_{w}=Sim_{j}+\left ( lp \left (1- Sim_{j} \right )\right )

其中:

  • ^{Sim_{j}}^{S_{1}} 和^{S_{2}}的Jaro相似度。
  • l是字符串公共的前缀长度,最大值为4。
  • p是一个常量因子,对于有公共前缀的分数会向上调整,p不能超过0.25,否则相似度会超过1,常量p的默认值为0.1。

图解Jaro-Winkler similarity求解过程

下面以字符串A(“abcdefgh”)和字符串B(“abehc”)为例来介绍整个算法的流程。这里以短字符串为行元素,长字符串为列元素,建立(|s1|+1)×(|s2|+1)的矩阵,这里匹配窗口的大小为3(注意包括距离为0的匹配),然后根据公式不断运算:
图解过程
从上面的图以及公式,我们可以总结出求解的过程:字符串s1作为行元素,字符串s2作为列元素,窗口大小为mw,同时建立两个布尔型数组,大小分别为s1和s2的长度,布尔型数组对应下标的值True表示已匹配,false表示不匹配。
对于行元素的每一个字符c1,根据c1在该字符串s1中的下标k,定位到s2的k位置,然后在该位置往前遍历mw个单位,往后遍历mw个单位,如果寻找到相等的字符,记在s2中的下标为p。经过这样的一次遍历,找到了k和p,我们分别标记布尔型数组s1的k和布尔型数组s2的p为已匹配(true),下次遍历时就跳过该已匹配的字符。当对s1的所有元素都遍历完毕时,就找到了所有已匹配的字符,我们统计已匹配的字符便能得到m,然后对两个布尔型数组同时按照顺序比较,如果出现了true,但二者对应字符串相应位置的字符不相等,表示这是非顺序的匹配,这样就可以得到t。这样就能根据m和t求出Jaro similarity了。至于Jaro-Winkler similarity,需要p参数,也不难,求出俩字符串最大共同前缀的大小即可。
如果读者对上面的过程还有疑问,笔者再提一点,关键就在于判断来自俩字符串的相等字符的距离是不是超过了阈值(即匹配窗口长度)。这里的判断方法是在某个位置进行前后的搜索,包括当前位置。

示例

三个单词^{S_{1}}^{S_{2}}^{S_{3}}分别为aboard、abroad、aborad,分为两组进行比较^{S_{1}}^{S_{2}}^{S_{1}}^{S_{3}}

根据Jaro Distance算法^{S_{1}}^{S_{2}}匹配的字符数为m为6,需要转换的字符为o、a、r,所以转换次数t为3/2=1。

它们的Jrao相似度为Sim_{s_{1}s_{2}}=\frac{1}{3}\left ( {\frac{6}{6}}+{\frac{6}{6}}+{\frac{6-1}{6}} \right )=0.944\cdots

^{S_{1}}^{S_{3}}匹配的字符数为m为6,需要转换的字符为a、r,所以转换次数t为2/2=1。

它们Jrao相似度为Sim_{s_{1}s_{3}}=\frac{1}{3}\left ( {\frac{6}{6}}+{\frac{6}{6}}+{\frac{6-1}{6}} \right )=0.944\cdots

此时^{S_{1}}^{S_{2}}^{S_{3}}的Jaro相似度相同,无法判断^{S_{1}}与哪个更相似,此时可以通过Jaro-Winkler Distance算法对Jaro相似度进行调整,假设常量因子p为0.25。

^{S_{1}}^{S_{2}}匹配字符的共同前缀ab的长度l为2小于4,

所以它们的Jaro-Winkler相似度为Sim_{w_{S1S2}}=0.944+\left ( 2*0.25 \left (1- 0.944 \right )\right )=0.972

^{S_{1}}^{S_{3}}匹配字符的共同前缀abo的长度l为3小于4,

所以它们的Jaro-Winkler相似度为Sim_{w_{S1S3}}=0.944+\left ( 3*0.25 \left (1- 0.944 \right )\right )=0.986

Jaro相似度相同的通过Jaro-Winkler Distance调整后可以比较出与哪个更相似。如上^{S_{1}}^{S_{3}}更相似。

进一步探究

经过上面的学习,我们已经掌握了这个算法的原理以及实现方法,下面我们接着来探究它的特性以及适用场景。
我们来看下面的一组实验结果:
探究结果1
关键字是fox,另外的字符串是包含有fox几个字符的字符串,可以看出最高相似度的是"fox"在开始几位的情况下,而"afoxbcd"反而比"foaxbcd"更低,虽然前者含有完整的"fox"而后者是分开的。同时"abcdfox"的相似度为0,即使它末尾含有"fox"。上面这几个例子说明了jaro-winkler相似度对于前缀匹配更友好,并且越往前面匹配成功带来的权重更大。由此可以看出,该算法可以用在单词的匹配上,比如对于一个单词"appropriate",找出数据库中与它最匹配的一个词语,可以是"appropriation",也可以是"appropriately"等。但是,该算法不适用在句子匹配上,因为如果关键字在句子的后面部分,相似度会急剧下降,甚至为0。

 

References

字符串编辑距离之JaroWinklerDistance

字符串相似度比较算法:Jaro–Winkler similarity的原理及实现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值