Levenshtein Distance算法可用于计算2个文本的近似度,PHP提供了levenshtein的字符串函数,但在实际使用过程中发现,该实现有2个缺点:
1.不支持多字节编码
2.字符串不能超过255个字节
自己实现如下:
在这个基础上,我们就可以很容易计算2篇文章的近似度了
参考:
http://www.merriampark.com/ld.htm
http://cn2.php.net/manual/en/function.levenshtein.php#101084