PHP函数similar_text()原理分析

最新推荐文章于 2021-03-26 16:44:59 发布

weixin_33739523

最新推荐文章于 2021-03-26 16:44:59 发布

阅读量133

点赞数

文章标签： php python

原文链接：https://my.oschina.net/lnmpstudy/blog/132902

版权

2019独角兽企业重金招聘Python工程师标准>>>

PHP有个计算两个字符串相似度的函数similar_text()，可以得出一个百分比来表示两个字符串的相似程度。效果如下：

1	similar_text('aaaa', 'aaaa', $percent);

2	var_dump($percent);

3	//float(100)

4	similar_text('aaaa', 'aaaabbbb', $percent);

5	var_dump($percent);

6	//float(66.666666666667)

7	similar_text('abcdef', 'aabcdefg', $percent);

8	var_dump($percent);

9	//float(85.714285714286)

利用这个函数，可以用来做模糊搜索的功能，或者其他需要模糊匹配的功能。最近我在验证码识别研究中的特征匹配一步上涉及到了这个函数。

但这个函数具体使用了怎样的算法呢？我研究了他的底层实现，总结为三步：

（1）找出两个字符串中相同部分最长的一段；
（2）再用同样的方法在剩下的两段中分别找出相同部分最长的一段，以此类推，直到没有任何相同部分；
（3）相似度 = 所有相同部分的长度之和 * 2 / 两个字符串的长度之和；

我研究的源代码版本是PHP 5.4.6，相关的代码位于文件php-5.4.6/ext/standard/string.c的第2951~3031行。以下是我加过注释后源代码。

01	//找出两个字符串中相同部分最长的一段

02	static void php_similar_str(const char txt1, int len1, constchar txt2, int len2, int pos1, int pos2, int *max)

03

{

04	char p, q;

05	char end1 = (char ) txt1 + len1;

06	char end2 = (char ) txt2 + len2;

07

     int l; 

08

09

     *max = 0; 

10	//以第一个字符串为基准开始遍历

11	for (p = (char *) txt1; p < end1; p++) {

12	//遍历第二个字符串

13	for (q = (char *) txt2; q < end2; q++) {

14	//发现有字符相同，继续循环找，l为相同部分的长度

15	for (l = 0; (p + l < end1) && (q + l < end2) && (p[l] == q[l]); l++);

16	//冒泡方法找出最长的一个l，并记住相同部分的开始位置

17	if (l > *max) {

18

                 *max = l; 

19	*pos1 = p - txt1;

20	*pos2 = q - txt2;

21

}

22

}

23

}

24

}

25

26	//计算两个字符串的相同部分的总长度

27	static int php_similar_char(const char txt1, int len1, constchar txt2, int len2)

28

{

29

     int sum; 

30	int pos1, pos2, max;

31

32	//找出两个字符串相同部分最长的一段

33	php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);

34	//这里是对sum的初始赋值，也是对max值的判断

35	//如果max为零，表示两个字符串没有任何相同的字符，也就会跳出if

36	if ((sum = max)) {

37	//对前半段递归，相同段长度累加

38	if (pos1 && pos2) {

39	sum += php_similar_char(txt1, pos1,

40	txt2, pos2);

41

}

42	//对后半段递归，相同段长度累加

43	if ((pos1 + max < len1) && (pos2 + max < len2)) {

44	sum += php_similar_char(txt1 + pos1 + max, len1 - pos1 - max,

45	txt2 + pos2 + max, len2 - pos2 - max);

46

}

47

}

48

49	return sum;

50

}

51

52

 //PHP函数定义 

53	PHP_FUNCTION(similar_text)

54

{

55	char t1, t2;

56	zval **percent = NULL;

57	int ac = ZEND_NUM_ARGS();

58

     int sim; 

59	int t1_len, t2_len;

60

61

     //检查参数合法性 

62	if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "ss\|Z", &t1, &t1_len, &t2, &t2_len, &percent) == FAILURE) {

63

         return; 

64

}

65

66	//如果有第三个参数

67	if (ac > 2) {

68	convert_to_double_ex(percent);

69

}

70

71	//如果两个字符串长度都为0，返回0

72	if (t1_len + t2_len == 0) {

73	if (ac > 2) {

74	Z_DVAL_PP(percent) = 0;

75

}

76

77	RETURN_LONG(0);

78

}

79

80	//调用上面的函数，计算两个字符串的相似度

81	sim = php_similar_char(t1, t1_len, t2, t2_len);

82

83	//可以看到percent的计算公式

84	if (ac > 2) {

85	Z_DVAL_PP(percent) = sim * 200.0 / (t1_len + t2_len);

86

}

87

88	RETURN_LONG(sim);

89

}

另外，PHP还提供了另外一个计算字符串相似度的函数levenshtein()，通过计算两个字符串的编辑距离来表示字符串相似度，这也是一种很常见的算法。levenshtein()的性能相比similar_text()要好一些，因为通过前面的代码分析可以看到，similar_text()的复杂度是O(n^3)，n表示最长字符串的长度，而levenshtein()的复杂度为O(m*n)，m与n分别为两个字符串的长度。

转载于:https://my.oschina.net/lnmpstudy/blog/132902

weixin_33739523

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PHP函数similar_text()原理分析

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。