原理我简单说两句,详细原理大家请参考《算法导论》第32章P563-P567,至于自动机原理,请参考其他编译原理书籍。
说明:Pk=P[1..k],表示模式P的前缀,也就是其前k个字符。k=0时,P0表示空串,空串为任何串(包括空串)的前缀和后缀。
初始状态下q=0,Pq=ε(空串,也就是匹配长度为0),这时给定字母表中的一个输入,状态就可能发生转换,比如说给定模式P的第一个字符,就会转移到状态1,q=1;如果给定其他字符,状态不变。依次类推,当处于状态q时,表示现在已经匹配了模式P的前q个字符,现在再给定一个字符a,状态转移到k,其中k为满足Pk为串Pqa的后缀的最大k值。0<=k<=q+1。下面通过函数Expect_Prefix()来判断给定的k是否满足条件。
该算法的预处理时间为O(m|∑|),匹配时间为O(n)。算法的关键在于求转移函数。下面给出求转移函数的伪代码:
Compute-Transition-Function(P, ∑)
{
m = length[P];
for q=0 to m
{
for each character A∈∑
{
k = min(m,q+1);
while(Pk is not a prefix of PqA)
k--;
δ(q,a)=k;
}
}
}
在求出转移函数后,就可以利用它来进行字符串匹配了