AC自动机
多模式串的匹配,trie树里面存放的是模式串。
最主要的部分就是通过队列,广度优先遍历,求出每个模式串节点的fail指针
查询的时候直接遍历要匹配的串就行了。
失配指针fail
fail指针指向与该节点表示串后缀缀相等的且长度最大的串的前缀的节点坐标
fail与kmp算法中的next数组还是有点不同的,next[j]表示的是j之前的前缀和后缀相等,且next指向前缀和后缀相等的前缀下一位,而fail[j]表示的是包含j这一位的长度最大的后缀和前缀缀相等,并且指向前缀最后一位座标。
trie[now][i] = trie[fail[now]][i]
这一块代码让整张tire树变成了trie图,非常关键
并且,正是因为这一行代码,才让fail指针满足ail指针指向与该节点表示串后缀相等的且长度最大的串(或前缀)的节点
可以用这一组字符串acadacacac简单模拟一下,就会体会这句代码的精妙之处了
#include <iostream>
#include <queue>
#include <cmath>
#include <cstdio>
#include <string>
#include <algorithm>
using namespace std;
typedef long long ll;
const int maxn = 2*1e6+9;
int trie[maxn][26]; //字典树
int cntword[maxn]; //记录该单词出现次数
int fail[maxn]; //失败时的回溯指针
int cnt = 0;
void init()
{
fill(fail,fail+maxn,0);
fill(trie,trie+maxn*26,0);
cnt=0;
}
void Get_trie(string s){
int u = 0;
for(int i=0;i<s.size();i++){
int next = s[i] - 'a';
if(!trie[u][next])
trie[u][next] = ++cnt;
u = trie[u][next];
}
cntword[u]++; //当前节点单词数+1
}
void Get_fail(){
queue <int>q;
for(int i=0;i<26;i++){ //将第二层所有出现了的字母扔进队列
if(trie[0][i]){
fail[trie[0][i]] = 0;
q.push(trie[0][i]);
}
}
//fail[now] ->当前节点now的失败指针指向的地方
tire[now][i] -> 下一个字母为i+'a'的节点的下标为tire[now][i]
while(!q.empty()){
int now = q.front();
q.pop();
for(int i=0;i<26;i++){ //查询26个字母
if(trie[now][i]){
//如果有这个子节点为字母i+'a',则
//让这个节点的失败指针指向(((他父亲节点)的失败指针所指向的那个节点)的下一个节点)
//有点绕,为了方便理解特意加了括号
fail[trie[now][i]] = trie[fail[now]][i];
q.push(trie[now][i]);
}
else//否则就让当前节点的这个子节点
//指向当前节点fail指针的这个子节点
trie[now][i] = trie[fail[now]][i];
}
}
}
int query(string s){
int now = 0,ans = 0;
for(int i=0;i<s.size();i++){ //遍历文本串
now = trie[now][s[i]-'a']; //从s[i]点开始寻找
for(int j=now;j && cntword[j]!=-1;j=fail[j]){
//一直向下寻找,直到匹配失败(失败指针指向根或者当前节点已找过).
ans += cntword[j];
cntword[j] = -1; //将遍历国后的节点标记,防止重复计算
}
}
return ans;
}
int main()
{
init();
int n;
string s;
cin >> n;
for(int i=0;i<n;i++){
cin >> s ;
Get_trie(s);
}
Get_fail();
cin >> s ;
cout << query(s) << endl;
return 0;
}