关于AC自动机(含模板代码详细注释)

重新整理了一下之前学习AC自动机的知识,顺便写一篇博客记录一下。突然想起上上学期电科ACM集训队的杨教练来给我们开讲座的时候提到电科很多年前有一个队伍靠着AC自动机算法A掉了一道全场几乎没有队伍过的题,那个时候AC自动机的paper才现世不久,是队员保持着经常看前沿算法paper的习惯才看到的,现场出题立马就联想到并且直接复现出来了(orz)~~~
       AC自动机的前置知识为trie(字典树),这里不再赘述。
       AC自动机是一个有限状态自动机,专为解决多模匹配问题而设计,最原始的问题情境就是“给定n个模式串和1个文本串,求有多少个模式串在文本串里出现过。”传送门P3808 【模板】AC自动机(简单版)

关于AC自动机和KMP算法的对比

       我们知道KMP算法是解决单模式串匹配时十分高效的算法,时间复杂度可达 O ( n + m ) ( n , m 为 文 本 串 和 模 式 串 的 长 度 ) O(n+m)(n,m为文本串和模式串的长度) O(n+m)(n,m)。KMP中的算法核心 n e x t [ ] next[] next[]数组的求解,其本质是:当我们从左到右扫描文本串和模式串进行模式匹配时(分别用指针 i , j i,j i,j表示),在失配的时候不回溯 i i i,而是去寻找下一个应该与 i i i匹配的 j j j n e x t [ ] next[] next[]根据模式串的最长相同前后缀求得,其实这个也不难理解,当模式串一个失配的时候,指针 j j j之前的位置是匹配的,那么要想模式串滑动一定距离能够到达 i i i位置,那么模式串新的指针 j j j之前的内容必定要和此时 j j j之前的内容一致,所以其实就是一个最长相同前后缀的问题。
       而AC自动机中最重要的内容就 f a i l fail fail指针的建立,这个跟KMP算法中的 n e x t [ ] next[] next[]数组是有异曲同工之妙的。当文本串顺着字典树向下走的时候,如果失配了就去找该节点对应字符串的最长后缀继续去匹配;如果匹配成功仍然需要沿着 f a i l fail fail指针指向的最长后缀字符串继续匹配,看 f a i l fail fail指针指向的节点是否是一个完整的模式串。(所以其实不论是否失配,在朴素的AC自动机算法中,都是需要不断地跳 f a i l fail fail指针的)。本质上就是在文本串匹配的一路中碰到的所有可能匹配的字符串都进行一次匹配,只不过由于借助了 f a i l fail fail指针省去了不必要的一些匹配过程。在求解 f a i l fail fail指针时,根据DP的思想,字典树下面一层的状态总可以由上面一层的状态转移过来,因此直接BFS一下就OK了。(具体实现见代码)

在这里插入图片描述

关于AC自动机的优化( f a i l fail fail树)

       众所周知,朴素的AC自动机需要不断地跳 f a i l fail fail指针,由于每一次 f a i l fail fail指针最多向上跳一层,所以复杂度可达 O ( M L ) O(ML) O(ML)。我们可以将 f a i l fail fail指针逆向从而得到 f a i l fail fail树,然后逆着求状态,从而进行优化。

朴素版AC自动机模板代码(含详细注释)

#include<bits/stdc++.h>
using namespace std;
const int maxn = 1e6 + 100;
typedef long long ll;
int tot; //trie树节点总数
int trie[maxn][27]; //字典树
int fail[maxn]; //fail指针 
int vis[maxn];
int flag[maxn]; //存储该节点的字符串数量 
queue<int> Q; 
char str[maxn];
int n; 
void init(){
	int i;
	while(!Q.empty()) Q.pop();
	for(i=0;i<=tot;++i){
		memset(trie[i], 0, sizeof(trie[i]));
		flag[i] = 0;
		fail[i] = 0;
		vis[i] = 0;
	}
}
void insert(char *str){ //字典树构建 
	int i, len = strlen(str), root = 0;
	for(i=0;i<len;++i){
		int e = str[i] - 'a';
		if(!trie[root][e]) trie[root][e] = ++tot;
		root = trie[root][e];
	}
	++flag[root]; //累加出现次数
	 
}
void setFail(){
	int i, root = 0;
	for(i=0;i<26;++i){
		if(trie[root][i]){ //根节点有这个儿子才入队,root没有这个儿子直接移动文本串 
			Q.push(trie[root][i]);
			fail[trie[root][i]] = root; //初始化第二层节点的fail指针为root 
		}
	}
	//构建第三层及之后的fail指针 
	while(!Q.empty()){
		int cur = Q.front();Q.pop();
		for(i=0;i<26;++i){
			if(trie[cur][i]){ //如果存在这个儿子,就将儿子的fail指针指向当前节点的fail指针指向节点的对应儿子 
			//其实是为了保证当前节点的所有后缀都参与匹配 
				fail[trie[cur][i]] = trie[fail[cur]][i];
				Q.push(trie[cur][i]);
			}else{ 
				//否则,直接让这个儿子指向当前节点的fail指针的儿子。这是失配的情形,真正意义的fail。 
				//这样做是为了当文本串失配时(没有可以与之匹配的情形)可以直接跟当前最长后缀的儿子匹配
				//可以理解为强行把别人的儿子当成自己家的 
				trie[cur][i] = trie[fail[cur]][i];	
			}
		}
	}
}
int Query(char *str){ //查询文本串str中存在多少模式串 
	int len = strlen(str), i, j, root = 0, ans = 0;
	for(i=0;i<len;++i){
		root = trie[root][str[i] - 'a']; //从文本串中第一个被匹配的字符之后开始找 
		for(j=root;j && !vis[j];j=fail[j]){ //把其后缀字符串全部找一遍 
			ans += flag[j]; //累加答案 
			vis[j] = 1;
		}
	}
	return ans; 
}
int main(){
	int t, i, j;
	ios::sync_with_stdio(false);
	init();
	cin>>n;
	for(i=1;i<=n;++i){
		cin>>str;
		insert(str);
	}
	cin>>str;
	setFail();
	cout<<Query(str);
	return 0;
} 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是AC自动机Java模板题U301874的代码实现: ```java import java.io.*; import java.util.*; public class Main { static final int MAXN = 100010, MAXM = 200010; static final int INF = 0x3f3f3f3f; static int n, m, cnt; static int[] trie = new int[MAXN * 30], idx = new int[MAXN * 30]; static int[] fail = new int[MAXN * 30], vis = new int[MAXN * 30]; static int[] head = new int[MAXN], nxt = new int[MAXM], ver = new int[MAXM], tot; static int[] deg = new int[MAXN]; static char[][] str = new char[MAXN][30]; static Map<Character, Integer> map = new HashMap<>(); static int add(char[] s) { int p = 0; for (int i = 0; s[i] != '\0'; i++) { char c = s[i]; if (!map.containsKey(c)) { map.put(c, ++cnt); } int u = map.get(c); if (trie[p] == 0) { trie[p] = ++tot; } p = trie[p]; idx[p] = u; } return p; } static void build() { Queue<Integer> q = new LinkedList<>(); for (int i = 1; i <= cnt; i++) { int u = map.get(str[i][0]); if (trie[0] == 0) { trie[0] = ++tot; } int p = trie[0]; idx[p] = 0; if (trie[p + u] == 0) { trie[p + u] = ++tot; } fail[p + u] = p; q.offer(p + u); } while (!q.isEmpty()) { int u = q.poll(); for (int i = head[idx[u]]; i != 0; i = nxt[i]) { int v = ver[i]; int p = fail[u], q = 0; while (p != 0 && trie[p + v] == 0) { p = fail[p]; } if (trie[p + v] != 0) { q = trie[p + v]; } fail[u + v] = q; q.offer(u + v); } } } static void addEdge(int u, int v) { ver[++tot] = v; nxt[tot] = head[u]; head[u] = tot; } static void topo() { Queue<Integer> q = new LinkedList<>(); for (int i = 1; i <= tot; i++) { if (deg[i] == 0) { q.offer(i); } } while (!q.isEmpty()) { int u = q.poll(); vis[u] = 1; for (int i = head[u]; i != 0; i = nxt[i]) { int v = ver[i]; deg[v]--; if (deg[v] == 0) { q.offer(v); } } } } public static void main(String[] args) { Scanner in = new Scanner(System.in); n = in.nextInt(); for (int i = 1; i <= n; i++) { String s = in.next(); str[i] = s.toCharArray(); add(str[i]); } m = in.nextInt(); for (int i = 1; i <= m; i++) { String s = in.next(); int len = s.length(); int p = 0; for (int j = 0; j < len; j++) { char c = s.charAt(j); if (!map.containsKey(c)) { break; } int u = map.get(c); if (trie[p + u] == 0) { break; } p = trie[p + u]; deg[p]++; addEdge(p, p + u); } } build(); topo(); for (int i = 1; i <= n; i++) { int p = 0; for (int j = 0; str[i][j] != '\0'; j++) { p = trie[p + map.get(str[i][j])]; if (vis[p] == 1) { System.out.println("YES"); break; } } if (vis[p] == 0) { System.out.println("NO"); } } } } ``` 该题解释:给定 $n$ 个模式串和 $m$ 个文本串,问每个模式串是否存在于文本串中。其中,模式串和文本串都只包字母。 AC自动机是一种可以高效匹配多个模式串的数据结构。该题需要使用AC自动机进行多模式串匹配。 代码实现中,使用一个trie树存储所有模式串,每个节点记录了下一层的字符和对应的子节点编号。同时,使用一个map记录每个字符对应的编号,以便于在trie树中查找。 在trie树构建完成后,使用广度优先搜索构建fail指针。搜索过程中,对于每个节点 $u$,依次查找其父亲节点 $p$ 直到根节点,若 $p$ 的子节点 $v$ 与 $u$ 的子节点 $w$ 匹配,则令 $u$ 的fail指针指向 $p+v$ 节点。如果 $p+v$ 节点不存在,则继续向根节点搜索。 在fail指针构建完成后,对于每个文本串,从根节点开始依次匹配每个字符,直到匹配完成或者无法匹配。如果最终匹配的节点已经被访问,则说明该模式串存在于文本串中。 时间复杂度为 $O(\sum |P|+|T|)$,其中 $\sum |P|$ 表示所有模式串的长度之和,$|T|$ 表示所有文本串的长度之和。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值