扩展KMP

扩展 KMP 算法
2017 年 03 月 12 日 • 阅读: 256 • 技术
前文已经介绍了经典的 KMP 算法,本文继续介绍 KMP 算法的扩展,即扩展 KMP 算法。

问题定义:给定两个字符串 S 和 T(长度分别为 n 和 m),下标从 0 开始,定义extend[i]等于S[i]…S[n-1]与 T 的最长相同前缀的长度,求出所有的extend[i]。举个例子,看下表:

i 0 1 2 3 4 5 6 7
S a a a a a b b b
extend[i] 5 4 3 2 1 0 0 0
T a a a a a c
为什么说这是 KMP 算法的扩展呢?显然,如果在 S 的某个位置 i 有extend[i]等于 m,则可知在 S 中找到了匹配串 T,并且匹配的首位置是 i。而且,扩展 KMP 算法可以找到 S 中所有 T 的匹配。接下来具体介绍下这个算法。

一:算法流程TOC

(1)

如上图,假设当前遍历到 S 串位置 i,即 extend[0]…extend[i-1] 这 i 个位置的值已经计算得到。算法在遍历过程中记录了匹配成功的字符的最远位置 p,及这次匹配的起始位置 a。相较于字符串 T 得出,S[a]…S[p] 等于 T[0]…T[p-a]。

再定义一个辅助数组int next[],其中next[i]含义为:T[i]…T[m-1]与 T 的最长相同前缀长度,m 为串 T 的长度。

(2)

椭圆的长度为next[i-a],对比 S 和 T,很容易发现,三个椭圆完全相同。如上图,此时i+next[i-a]

include

include

using namespace std;

/* 求解T中next[],注释参考GetExtend() */
void GetNext(string T, int next[])
{
int t_len = T.size();
next[0] = t_len;
int a;
int p;

for (int i = 1, j = -1; i < t_len; i++, j--)
{
    if (j < 0 || i + next[i - a] >= p)
    {
        if (j < 0)
            p = i, j = 0;

        while (p < t_len&&T[p] == T[j])
            p++, j++;

        next[i] = j;
        a = i;
    }
    else
        next[i] = next[i - a];
}

}

/* 求解extend[] */
void GetExtend(string S, string T, int extend[], int next[])
{
GetNext(T, next); //得到next
int a;
int p; //记录匹配成功的字符的最远位置p,及起始位置a
int s_len = S.size();
int t_len = T.size();

for (int i = 0, j = -1; i < s_len; i++, j--)  //j即等于p与i的距离,其作用是判断i是否大于p(如果j<0,则i大于p)
{
    if (j < 0 || i + next[i - a] >= p)  //i大于p(其实j最小只可以到-1,j<0的写法方便读者理解程序),
    {                                   //或者可以继续比较(之所以使用大于等于而不用等于也是为了方便读者理解程序)
        if (j < 0)
            p = i, j = 0;  //如果i大于p

        while (p < s_len&&j < t_len&&S[p] == T[j])
            p++, j++;

        extend[i] = j;
        a = i;
    }
    else
        extend[i] = next[i - a];
}

}

int main()
{
int next[100] = { 0 };
int extend[100] = { 0 };
string S = “aaaaabbb”;
string T = “aaaaac”;

GetExtend(S, T, extend, next);

//打印next和extend
cout << "next:    " << endl;
for (int i = 0; i < T.size(); i++)
    cout << next[i] << " ";

cout << "\nextend:  " << endl;
for (int i = 0; i < S.size(); i++)
    cout << extend[i] << " ";

cout << endl;
return 0;

}
三:时间复杂度TOC

对比 KMP 算法,很容易发现时间复杂度为 Θ(n+m)。

参考文献:
[1] NOALGO. 扩展 KMP 算法
[2] ACdreamer. 扩展 KMP 算法

—- 完 ヾ (^▽^*)))
下方可以给博主打赏哦☆⌒(*^- ゜)v THX!!
本作品采用知识共享署名 - 非商业性使用 - 禁止演绎 4.0 国际许可协议进行许可。
http://www.61mon.com/index.php/archives/186/

阅读更多
换一批

没有更多推荐了,返回首页