AC自动机简介:
首先简要介绍一下AC自动机:Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一。一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。嗯没错,比如word文档等一系列带有查找功能的东西一般用的都是这种东西啦。要搞懂AC自动机,先得有字典树Trie和KMP模式匹配算法的基础知识。KMP算法是单模式串的字符匹配算法,AC自动机是多模式串的字符匹配算法。至于什么有限状态自动机之类的,就是自动机理论的之后的事情了。嘛,在后面补了一下有限状态自动机的知识,有兴趣可以去下面看。
AC自动机前置技能: trie树和kmp。
trie树呢,是一种存储了一系列字符的树,每个节点存储一个字符,在一棵树的分支进行遍历,每次都会得到一个存储好的字符串。
假设有b,abc,abd,bcd,abcd,efg,hii 这6个单词,我们构建的树就是如下图这样的:
这样就可以看出,查找一个字符串,那就直接顺着这个串找下去就好了,唔,时间复杂度貌似是O(1)的
trie树的用途也非常多,在这里就先不展开分析了,一般用于字符串的存储,查询之类的,具体问题可以参考我的其他题解。
这是poj2001的代码,trie树裸题,可以作为参考。
#include<cstdio>
#include<cstring>
#include<algorithm>
#include<cmath>
#include<iostream>
#include<vector>
#include<string>
using namespace std;
const int MAXN=3000000;
typedef long long ll;
char s[10005][31];
struct node
{
int num;
node* next[26];
node()
{
memset(next,NULL,sizeof(next));
num=0;
}
};
node* root=new node();
void build(char str[])
{
node* p=root;
int len=strlen(str);
for(int i=0;i<len;i++)
{
int index=str[i]-'a';
if(p->next[index]==NULL)
{
p->next[index]=new node();
}
p=p->next[index];
p->num++;
}
}
void query(char str[])
{
node* p=root;
int len=strlen(str);
for(int i=0;i<len;i++)
{
printf("%c",str[i]);
int index=str[i]-'a';
p=p->next[index];
if(p->num==1)
return;
}
}
int main()
{
int T;
int n=0;
while(scanf("%s",s[n])!=EOF)
{
build(s[n]);
n++;
}
for(int i=0;i<n;i++)
{
printf("%s ",s[i]);
query(s[i]);
printf("\n");
}
return 0;
}
下一个内容,kmp。
kmp是一种字符串的算法,貌似现在的strstr就是用kmp重写的,用的最多的当然就是查找一个字符串中有没有给定的字串,位置和个数了
因为朴素的查找方法是O(n^2)的,其中由于进行了回溯,导致效率的下降,但问题在于,回溯过去的子串我们已经查找过了,能否保留查找的内容呢?答案当然是可以的。