概述
- 作用
- AC自动机主要用于解决多模式串的匹配问题(具体指的是:如下图中 模式串 p中有多个 字符串,问这些字符串在 主串s的出现的总次数),
- 是字典树(trie树)的变种,一种伪树形结构(主体是树形的,但是由于加入了失败指针,使得它变成了一个有向图);
- 过程
讲解
代码
#include<iostream>
#include<string.h>
#include<string>
#include<vector>
#include<queue>
using namespace std;
struct Trie
{
int son[26] = { 0 };
int cnt = 0; //以当前节点为终点的 模式字符串 的数量
int fail = -1; //fail == -1 表示没有指向的节点了,fail == 0 表示当前节点的 fail指针指向 根节点0,,,注意根节点0 也是没有指向的节点的,所以它的fail指针也是指向 -1点
};
vector<Trie> trie;
int idx = 0;
void insert(string s)
{
int p = 0;
for(int i = 0; i < s.size(); i ++)
{
int c = s[i] - 'a';
if(trie[p].son[c] == 0) trie[p].son[c] = ++ idx;
p = trie[p].son[c];
}
trie[p].cnt ++;
}
void fail_pre()
{
queue<int> q;
for(int i = 0; i < 26; i ++)
{
if(trie[0].son[i])
{
int sn = trie[0].son[i];
trie[sn].fail = 0;
q.push(sn);
}
}
while(q.size())
{
int f = q.front(); q.pop();
for(int i = 0; i < 26; i ++)
{
if(trie[f].son[i])
{
int now = trie[f].son[i];
int ffail = trie[f].fail;
while(~ ffail && ! trie[ffail].son[i]) ffail = trie[ffail].fail;
if(~ ffail) trie[now].fail = trie[ffail].son[i];
else trie[now].fail = 0;
q.push(now);
}
}
}
}
int query(string s)
{
int ans = 0;
int p = 0;
for(int i = 0; i < s.size(); i ++)
{
int c = s[i] - 'a';
while(! trie[p].son[c] && ~ trie[p].fail) p = trie[p].fail; //注意:“ ! trie[p].son[c] ” 表示的意思是p这个节点为叶子节点
if(trie[p].son[c]) p = trie[p].son[c]; //如果找到了 同字符的儿子,用p记录下这个儿子的编号,
else continue; //如果没有找到,p 的值被赋值为 根节点的编号0
int p2 = p;
while(~ trie[p2].fail) //注意 抛去不存在节点的fail指针值为-1,那么只有 根节点的0点fail指针为-1, 那么这个while循环里面的意思是:当p不为根节点的时候
{
ans += trie[p2].cnt;
p2 = trie[p2].fail;
}
}
return ans;
}
int main()
{
trie.resize(1e5); //树中最大的节点的数量1e5
insert("she");
insert("he");
insert("her");
insert("his");
insert("this");
insert("is");
fail_pre();
int ans = query("sherthis");
printf("%d\n", ans);
return 0;
}
另一个模版
#include <queue>
#include <cstdlib>
#include <cmath>
#include <cstdio>
#include <string>
#include <cstring>
#include <iostream>
#include <algorithm>
using namespace std;
typedef long long ll;
const int maxn = 2*1e6+9;
int trie[maxn][26]; //字典树
int cntword[maxn]; //记录该单词出现次数
int fail[maxn]; //失败时的回溯指针
int cnt = 0;
void insertWords(string s){
int root = 0;
for(int i=0;i<s.size();i++){
int next = s[i] - 'a';
if(!trie[root][next])
trie[root][next] = ++cnt;
root = trie[root][next];
}
cntword[root]++; //当前节点单词数+1
}
void getFail(){
queue <int>q;
for(int i=0;i<26;i++){ //将第二层所有出现了的字母扔进队列
if(trie[0][i]){
fail[trie[0][i]] = 0;
q.push(trie[0][i]);
}
}
//fail[now] ->当前节点now的失败指针指向的地方
//tire[now][i] -> 下一个字母为i+'a'的节点的下标为tire[now][i]
while(!q.empty()){
int now = q.front();
q.pop();
for(int i=0;i<26;i++)
{ //查询26个字母
if(trie[now][i]){
//如果有这个子节点为字母i+'a',则
//让这个节点的失败指针指向(((他父亲节点)的失败指针所指向的那个节点)的相同字符节点)
//有点绕,为了方便理解特意加了括号
fail[trie[now][i]] = trie[fail[now]][i];
q.push(trie[now][i]);
}
else//否则就让当前节点的这个子节点
//指向当前节点fail指针的这个子节点
trie[now][i] = trie[fail[now]][i];
}
}
}
int query(string s){
int now = 0,ans = 0;
for(int i=0;i<s.size();i++){ //遍历文本串
now = trie[now][s[i]-'a']; //从s[i]点开始寻找
for(int j=now;j && cntword[j]!=-1;j=fail[j]){
//一直向下寻找,直到匹配失败(失败指针指向根或者当前节点已找过).
ans += cntword[j];
cntword[j] = -1; //将遍历国后的节点标记,防止重复计算
}
}
return ans;
}
int main() {
int n;
string s;
cin >> n;
for(int i=0;i<n;i++){
cin >> s ;
insertWords(s);
}
fail[0] = 0;
getFail();
cin >> s ;
cout << query(s) << endl;
return 0;
}