浅谈AC自动机

浅谈AC自动机

ac自动机适用于多模式串匹配问题。通俗的说就是给你一个文本串,多个模式串,求模式串在文本串中出现的次数。
需要的前置技能为trie树。算法核心思想与kmp相似。
首先根据模式串构建trie树,代码如下:

void insert()
{
	int len = strlen(a);
	int now = 0;
	for(int i = 0; i < len; i++)
	{
		int c = a[i] - 'a';
		if(!trie[now][c])
		{
			trie[now][c] = ++tot;
		}
		now = trie[now][c];
	}
	book[now]++;
}

从根节点往下找,若模式串的某个字符不存在,就构建一个新节点,否则从此节点往下查找,构建。trie树的核心,没啥可说的。

接下来是求fail数组。在kmp中,nex数组是当匹配失败时确定下一次需要匹配的位置,即最大相同前后缀的前缀的下一位。在AC自动机中,fail数组是在遍历到文本串的c字符时,把模式串中以c字符为结尾并且前面字符与文本串完全匹配的的模式串或子串全部遍历一遍。能够做到只遍历一遍文本串就能求解。求解可以用bfs实现。求解c字符的fail时,其值就是c的父亲节点的fail值所指向的节点的与c相同的子节点位置。若不存在,就指向根节点。有点绕,具体看代码吧:

void getfail()
{
	queue<int> q;
	for(int i = 0; i < 26; i++)
	{
		if(trie[0][i])
		{
			fail[trie[0][i]] = 0;
			q.push(trie[0][i]);
		}
			
	}
	while(!q.empty())
	{
		int now = q.front();
		q.pop();
		for(int i = 0; i < 26; i++)
		{
			if(trie[now][i])//若此节点存在 
			{
				fail[trie[now][i]] = trie[fail[now]][i];
				q.push(trie[now][i]);
			}
			else//若不存在,就此节点赋值为其父亲节点fail只想节点与其数值相同的子节点的位置
				//作用是当此模式串不匹配时,跳转至另一个能够匹配的模式串 
				trie[now][i] = trie[fail[now]][i];
		}
	}
}

然后是查询函数,模拟查询过程可以发现,在查询文本串的每一位时,比如当前到c这个字符的位置,它会查询所有以c为结尾且前面的字符与文本串完全匹配的模式串或子串,在多个模式串之间的跳转就是通过fail数组来实现的。若当前模式串一直匹配成功,那么now会一直在当前模式串的字符上的节点上,并通过当前模式串来访问其他模式串。
若匹配失败,由于在求解fai时已经考虑过匹配失败的情况,即对此节点赋值(详见代码注释),这时会直接跳转至能匹配的模式串的节点上。见代码:

void query()
{
	int len = strlen(a);
	int now = 0, ans = 0;
	for(int i = 0; i < len; i++)
	{
		int c = a[i] - 'a';
		now = trie[now][c];
		for(int j = now; j && book[j] != -1; j = fail[j])
		{
			ans += book[j];
			book[j] = -1;//防止已经遍历过的模式串再次计算 文本串abcdabcdabcd 模式串abcd 
		}
	}
	cout << ans << endl;
}

最后,附上完整的AC自动机算法的代码:

#include <iostream>
#include <cstring>
#include <algorithm>
#include <queue>
#include <cstdio>
#define mem(a, b) memset(a, b, sizeof(a)) 
using namespace std;

const int maxn = 1e6 + 10;
int trie[maxn][30];
int fail[maxn];
int book[maxn];
char a[maxn];
int tot;

void insert()
{
	int len = strlen(a);
	int now = 0;
	for(int i = 0; i < len; i++)
	{
		int c = a[i] - 'a';
		if(!trie[now][c])
		{
			trie[now][c] = ++tot;
		}
		now = trie[now][c];
	}
	book[now]++;
}

void getfail()
{
	queue<int> q;
	for(int i = 0; i < 26; i++)
	{
		if(trie[0][i])
		{
			fail[trie[0][i]] = 0;
			q.push(trie[0][i]);
		}	
	}
	while(!q.empty())
	{
		int now = q.front();
		q.pop();
		for(int i = 0; i < 26; i++)
		{
			if(trie[now][i])//若此节点存在 
			{
				fail[trie[now][i]] = trie[fail[now]][i];
				q.push(trie[now][i]);
			}
			else//若不存在,就此节点赋值为其父亲节点fail只想节点与其数值相同的子节点的位置
				//作用是当此模式串不匹配时,跳转至另一个能够匹配的模式串 
				trie[now][i] = trie[fail[now]][i];
		}
	}
}

void query()
{
	int len = strlen(a);
	int now = 0, ans = 0;
	for(int i = 0; i < len; i++)
	{
		int c = a[i] - 'a';
		now = trie[now][c];
		for(int j = now; j && book[j] != -1; j = fail[j])
		{
			ans += book[j];
			book[j] = -1;//防止已经遍历过的模式串再次计算 文本串abcdabcdabcd 模式串abcd 
		}
	}
	cout << ans << endl;
}

void init()
{
	mem(fail, 0);
	mem(book, 0);
	mem(trie, 0);
	mem(a, 0);
	tot = 0;
}

int main()
{
	int t;
	scanf("%d", &t);
	while(t--)
	{
		init();
		int n;
		scanf("%d", &n);
		for(int i = 0; i < n; i++)
		{
			scanf("%s", a);
			insert();
		}
		getfail();
		scanf("%s", a);
		query();
	}
	return 0;
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值