PHP有个计算两个字符串相似度的函数similar_text(),可以得出一个百分比来表示两个字符串的相似程度。效果如下:
利用这个函数,可以用来做模糊搜索的功能,或者其他需要模糊匹配的功能。最近我在验证码识别研究中的特征匹配一步上涉及到了这个函数。
但这个函数具体使用了怎样的算法呢?我研究了他的底层实现,总结为三步:
(1)找出两个字符串中相同部分最长的一段;
(2)再用同样的方法在剩下的两段中分别找出相同部分最长的一段,以此类推,直到没有任何相同部分;
1
similar_text('aaaa', 'aaaa', $percent);
2
var_dump($percent);
3
//float(100)
4
similar_text('aaaa', 'aaaabbbb', $percent);
5
var_dump($percent);
6
//float(66.666666666667)
7
similar_text('abcdef', 'aabcdefg', $percent);
8
var_dump($percent);
9
//float(85.714285714286)
利用这个函数,可以用来做模糊搜索的功能,或者其他需要模糊匹配的功能。最近我在验证码识别研究中的特征匹配一步上涉及到了这个函数。
但这个函数具体使用了怎样的算法呢?我研究了他的底层实现,总结为三步:
(1)找出两个字符串中相同部分最长的一段;
(2)再用同样的方法在剩下的两段中分别找出相同部分最长的一段,以此类推,直到没有任何相同部分;