在模糊匹配的时候,即使用户输入的单词错了,我们最好也能返回一些候选的结果给用户。这样就少不了需要一个算法来计算2个单词之间的距离。距离越近,我们认为这个单词更符合用户的输入。
计算2个单词之间的距离可以参考: http://en.wikipedia.org/wiki/Edit_distance
edit distance定义成:把一个单词,修改成另一个单词需要进行的最少操作步骤,定义为这2个单词之间的距离。其中操作步骤只能是以下3种选择
1,插入一个字母
2,删除一个字母
3,替换一个字母
如何计算2个单词之间的距离,基本流程如下:
1,设置2个单词 str1 长度为 n
str2 长度为 m
2, 如果n==0,距离为m。 反过来,如果m==0, 距离为n
3,创建一个n*m的矩阵t,对矩阵进行填值。
4,定义2个单词的各个字母之间的cost,如果2个字母相等,cost为 0, 如果不等cost为 1。
所以 cost(i,j) = if str1[i] == str2[j] then 0
else 1
5, 对矩阵的各个位置进行赋值。每个矩阵的值为下面3个值中的最小值:
a = t [ i-1, j ] + 1
b = t [ i, j-1] + 1
c = t [ i-1, j-1 ] + cost( i, j )
t [ i, j ] = min( a, b, c )
6, 当把整个矩阵的值都填完了后, t [ n, m ] 就是2个单词的距离。