感受
这是一个能看哭的算法,虽然没几行代码。
起初是朋友一起看毛片,看了一个晚上,结果就是苦不堪言,不明觉厉。
直到看到coursera上Robert Sedgewick的讲解,觉得神清气爽。
后来,因为在看阮一峰的博客,又提到KMP,阮讲得道理好懂,但笼统。
就想再对比下Robert教授的讲解,发现自己又傻住了。
不得不再花了些时间,理解了一遍,
还是记录下理解过程,希望以后不要再反反复复折腾。
以上是我学习这个过程的心理感受。
理解过程
1. 暴力算法
首先如果采取暴力手段的话,算法如下:
public static int search(String pat, String txt)
{
int M = pat.length();
int N = txt.length();
for (int i = 0; i <= N - M; i++)
{
int j;
for (j = 0; j < M; j++)
if (txt.charAt(i+j) != pat.charAt(j))
break;
if (j == M) return i; //index in text where pattern starts
}
return N; // not found
}
以下也是另一种暴力,和上边大同小异,其中
i指向流的最后一个匹配字符
j存储已经匹配的最后一个字符
public static int search(String pat, String txt)
{
int i, N = txt.length();
int j, M = pat.length();
for (i = 0, j = 0; i < N && j < M; i++)
{
if (txt.charAt(i) == pat.charAt(j)) j++;
else { i -= j; j = 0; }
}
if (j == M) return i - M;
else return N;
}
2. KMP算法
而kmp算法就是把上边的
if (txt.charAt(i) == pat.charAt(j)) j++;
else { i -= j; j = 0; }
替换为下边的一句话
j = dfa[txt.charAt(i)][j];
因此KMP算法为
public int search(String txt)
{
int i, j, N = txt.length();
for (i = 0, j = 0; i < N && j < M; i++)
j = dfa[txt.charAt(i)][j];
if (j == M) return i - M;
else return N;
}
或者流的表现形式
public int search(String txt)
int i, j;
for (i = 0, j = 0; !in.isEmpty() && j < M; i++)
j = dfa[in.readChar()][j];
if (j == M) return i - M;
else return NOT_FOUND;
}
其中,j 表明 pattern的前( j 包含j )字符是和当前txt 从i位置往前的 j 个字符是匹配的。
从以上算法可以看出, i 不需要回退, 也就意味着,i前的字符可以直接丢弃。 不需要备份回退字符。
剩下的问题是如何构建状态机dfa[ ][ ]
3. 构建状态机dfa[][]
1. 匹配字符,状态显而易见。
2. 不匹配时,是构建的重点。
举例,假设ABABAB匹配到最后一个B时,如果是此文第一张暴力算法,i往后移动一位,显然抛弃首位A,继续暴力比较,即BABAB 和 pattern ABABAC重新比较,BABAB从状态0在一编状态机, BABA会走到状态3,即有后三个字符ABA是匹配的,在3 的状态下,输入B,显然进入状态4,
比较重要的一个理解是,状态机中的值,是在当前状态中,遇到下一个字符后,有几个字符是和search txt是已匹配的。
以上说明只为解释下图
有了以上说明就有了以下dfa构建算法(下图中的X记录的是除去pattern首字母,匹配到的状态,处理下一字符的起始状态,上图是3)
其他参考图片
1.背景
2. KMP
说明