概述
Jaro-Winkler Distance是一个度量两个字符序列之间的编辑距离的字符串度量标准,是由William E. Winkler在1990年提出的Jaro Distance度量标准的一种变体。Jaro Distance是两个单词之间由一个转换为另一个所需的单字符转换的最小数量。Jaro-Winkler Distance通过前缀因子使Jaro Distance相同时共同前缀长度
越大的相似度越高。Jaro–Winkler Distance越小,两个字符串越相似。如果分数是0,则表示完全不同,分数为1则表示完全匹配。Jaro–Winkler相似度是1 - Jaro–Winkler Distance。
Jaro相似度
对于给定的两个字符串 和
,相似度
,计算公式如下:
其中:
是字符串
的长度。
是匹配的字符数量。
是字符转换的次数。
只有当 和
的字符相同,且距离不超过
时才认为两个字符是匹配的。将
与
匹配的字符进行比较,相同位置但字符不同的字符数除以2就是要转换的次数
。
Jaro-Winkler相似度
对于给定的两个字符串 和
,相似度
,计算公式如下:
其中:
是
和
的Jaro相似度。
是字符串公共的前缀长度,最大值为4。
是一个常量因子,对于有公共前缀的分数会向上调整,
不能超过0.25,否则相似度会超过1,常量
的默认值为0.1。
示例
三个单词、
、
分别为aboard、abroad、aborad,分为两组进行比较
、
和
、
。
根据Jaro Distance算法、
匹配的字符数为
为6,需要转换的字符为o、a、r,所以转换次数
为3/2=1。
它们的Jrao相似度为。
而、
匹配的字符数为
为6,需要转换的字符为a、r,所以转换次数
为2/2=1。
它们Jrao相似度为。
此时与
和
的Jaro相似度相同,无法判断
与哪个更相似,此时可以通过Jaro-Winkler Distance算法对Jaro相似度进行调整,假设常量因子
为0.25。
、
匹配字符的共同前缀ab的长度
为2小于4,
所以它们的Jaro-Winkler相似度为。
而、
匹配字符的共同前缀abo的长度
为3小于4,
所以它们的Jaro-Winkler相似度为。
Jaro相似度相同的通过Jaro-Winkler Distance调整后可以比较出与哪个更相似。如上与
更相似。