AC自动机主要解决的问题:多模式匹配(KMP则属于单模式匹配),n个单词在m个字符的文章中,出现过多少次。
主要分三步:构建trie树、构建失败指针、寻找匹配个数
Trie树:又称字典树、单词查找树,是一种树形结构,用于保存大量的字符串。它的优点是:利用字符串的公共前缀来节约存储空间。
具体参见:http://www.cppblog.com/abilitytao/archive/2009/04/21/80598.aspx
失败指针:作用于KMP的next[]类似,但存在实际不同,对于字符串s[nMax],k = next[i],并不要求s[i] = s[k],只需要前面k - 1个字母相同即可。而失败节点既要求两个节点相同,也要求前面的k - 1个节点相同。这是与next作用的区别。
需要用到的数据结构:
struct Node
{
Node *fail;
Node *next[Max];
int count;
Node()
{
fail = NULL;
memset(next, 0, sizeof(next));
count = 0;
}
}*queue[nMax];
char keyWord[mMax];
char str[nMax];
int ans;
算法模板:
void insert(char s[], Node *root)
//构建tire树,这里没什么可解释,一次历遍即可
{
Node *p = root;
for(int i = 0; s[i]; ++ i)
{
int index = s[i] - 'a';
if(p->next[index] == NULL) p->next[index] = new Node();
p = p->next[index];
}
p ->count ++;
}
void buildFailNode(Node *root)
//构建失败指针,队列实现
{
int front = 0,
rear = 0;
queue[front ++] = root;
while(rear < front)
{
Node *p = queue[rear ++];
for(int i = 0; i < Max; ++ i)
{
if(p->next[i])
{
Node *fa = p->fail;
while(fa != NULL)//不断寻找p的失败节点直到发现fa子节点中也存在i节点
{
if(fa->next[i])
{
p->next[i]->fail = fa->next[i];
break;
}
fa = fa->fail;
}
if(fa == NULL) p->next[i]->fail = root;
queue[front ++] = p->next[i];
}
}
}
}
void match(Node *root)
//寻找一串字符中,共有多少能与关键字匹配。
{
Node *p = root;
for(int i = 0; str[i]; ++ i)
{
int index = str[i] - 'a';
while(p->next[index] == NULL && p != root)
p = p->fail;
p = p->next[index];
p = (p == NULL) ? root : p;//为了配合while()中p != root的应用
Node *_p = p;//这里需要将p另外复制给_p,p的值不能做改动,p此时存储的是第一个匹配的节点
while(_p != root && _p->count != -1)
//这里使用while循环即可将str[i]位置所有匹配全部找出来
{
ans += _p->count;
_p->count = -1;
_p = _p ->fail;
}
}
}
详细参见,图文并茂: http://www.cppblog.com/mythit/archive/2009/04/21/80633.html