AC自动机
前置知识:KMP算法、Trie
简介
K M P KMP KMP算法用于进行单个模式串的匹配,而 A C AC AC自动机则是适用于多模式串的匹配,即可以匹配多个模式串在主串中,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法。
原理
回想一下 K M P KMP KMP算法是通过构建一个 n e x t next next数组,每次失配后,通过找到该位置的最长公共前后缀的值,移动到对应位置,从而避免多次不必要的比较,同样的在 A C AC AC自动机算法中,有一个类似与 n e x t next next的东西,帮助我们在每次失配时,能够找到正确的位置,避免多次比较,我们叫做失配指针。
Fail指针的作用:匹配失败后,能够指向正确的位置。
Fail的实质含义:假定点 i i i 的 F a i l Fail Fail 指针指向 j j j, 则有 r o o t root root到 j j j 的字符串是 r o o t root root到 i i i 的一个后缀。
-
为了尽可能少匹配, F a i l Fail Fail指针指向的节点深度要尽可能的大。
-
A C AC AC自动机使用 T r i e Trie Trie树来存放所有的模式串
假定模式串为:she、his、he、hers,构建一棵Trie树如下图
如何求 F a i l Fail Fail指针呢?
- 根据定义可得,第一层的 F a i l Fail Fail指针是指向根节点的。
- 点 i i i的 F a i l Fail Fail指针的深度是小于 i i i的(后缀属性)
求某个点 i i i的 F a i l Fail Fail指针,假定点 i i i的父亲节点为 k k k,那么如果 F a i l [ k ] Fail[k] Fail[k]的儿子节点中也有和 i i i相同的字符,那么 i i i可以直接指过去
求红色节点的 F a i l Fail Fail指针,找到它的父亲节点(绿色),父亲节点的 F a i l Fail Fail指向的节点(黄色),该黄色节点的儿子中若是有和红色节点相同的,红色节点的 F a i l Fail Fail指针直接指向该儿子节点(紫色)即可,如果没有,则直接指向根节点。
构建完成后如下图所示:
由于在求某个节点 F a i l Fail Fail指针的时候,需要知道该节点父亲的 F a i l Fail Fail,因此使用 b f s bfs bfs,一层一层地求 F a i l Fail Fail。
注意:假定 T r i e Trie Trie树全部由小写字母构成,我们在对每一个节点的儿子节点遍历时,需要遍历26次,其中有些节点不一定存在,若是不存在,我们可以将该节点构建出来,设为该节点父亲节点 F a i l Fail Fail指向的节点对应的儿子。如下图:
灰色节点并不存在,但是可以构建出来直接指向该节点父亲(绿色)的 F a i l Fail Fail指向的黄色节点对应的儿子(红色),保证存在性,并且在文本查找过程中,可以直接跳转过去。
查询操作
构建好 F a i l Fail Fail指针后,我们就可以进行查询了,为了避免重复计算,每经过一个点就加上以这个点作为结尾的模式串数量,然后标记为-1,如果某个位置匹配不成功,则跳转到 F a i l Fail Fail指针位置
例题
来看一道模板题(https://www.luogu.com.cn/problem/P3808)
题目描述
给定 n个模式串
s
i
s_i
si 和一个文本串
t
t
t,求有多少个不同的模式串在文本串里出现过。
两个模式串不同当且仅当他们编号不同。
输入格式
第一行是一个整数,表示模式串的个数
n
n
n。
第 2 到第
(
n
+
1
)
(n + 1)
(n+1) 行,每行一个字符串,第
(
i
+
1
)
(i + 1)
(i+1) 行的字符串表示编号为
i
i
i 的模式串
s
i
s_i
si。
最后一行是一个字符串,表示文本串
t
t
t。
输出格式
输出一行一个整数表示答案。
输入样例
3
a
aa
aa
aaa
输出样例
3
数据规模与约定
- 对于 50 % 50\% 50% 的数据,保证 n = 1 n = 1 n=1。
- 对于 100 % 100\% 100% 的数据,保证 1 ≤ n ≤ 1 0 6 1 \leq n \leq 10^6 1≤n≤106, 1 ≤ ∣ t ∣ ≤ 1 0 6 1 \leq |t| \leq 10^6 1≤∣t∣≤106, 1 ≤ ∑ i = 1 n ∣ s i ∣ ≤ 1 0 6 1 \leq \sum\limits_{i = 1}^n |s_i| \leq 10^6 1≤i=1∑n∣si∣≤106。 s i , t s_i, t si,t 中仅包含小写字母。
参考程序
#include <iostream>
#include <cstring>
#include <algorithm>
#include <queue>
using namespace std;
const int N = 1e6 + 15;
int t[N][26];
int fail[N];
int cnt[N];
char st[N];
queue <int> q;
int idx;
void init () {
memset (t, 0, sizeof t);
memset (fail, 0, sizeof fail);
memset (cnt, 0, sizeof cnt);
}
void insert (char *s) { // 构建trie树
int p = 0;
for (int i = 0; s[i]; i ++) {
int ne = s[i] - 'a';
if (!t[p][ne]) t[p][ne] = ++ idx;
p = t[p][ne];
}
cnt[p] ++;
}
void getFail () {
for (int i = 0 ; i < 26; i ++)
if (t[0][i]) {
fail[t[0][i]] = 0; // 指向根节点
q.push(t[0][i]);
}
while (!q.empty()) {
int u = q.front();
q.pop ();
for (int i = 0; i < 26; i ++) {
if (t[u][i]) { // 存在该节点
fail[t[u][i]] = t[fail[u]][i];
q.push (t[u][i]);
} else // 不存在
t[u][i] = t[fail[u]][i];
}
}
}
int query (string s) {
int u = 0, ans = 0;
for (int i = 0; i < s.size(); i ++) {
u = t[u][s[i] - 'a'];
for (int j = u; cnt[j] != -1; j = fail[j]) {
ans += cnt[j];
cnt[j] = -1;
}
}
return ans;
}
int main () {
ios::sync_with_stdio (0);
cin.tie(0);
int n;
string st1;
init ();
cin >> n;
for (int i = 1; i <= n; i ++) {
cin >> st;
insert (st);
}
getFail ();
cin >> st1;
cout << query(st1) << endl;
return 0;
}