AC自动机+模板

AC自动机是一种多模匹配算法,

所谓多模就是就是给你一些单词,再给你一段字符串,问有多少个单词在字符串中出现,而KMP就是单模。

学习AC自动机首先要用到字典树的知识和KMP中求next数组的思想。

一般来说有三个步骤

第一、构建一颗字典树

没有学过字典树的可以先去看看,这里没有用二维数组模拟,用的指针,因为有一个fail指针,下面会提到它的用法。

void insert(char *s)
{
    node *p=root;
    int i=0;
    int index;
    while(s[i]){
        index=str[i]-'a';
        if(p->nexte[index]==NULL){
             newnode=(struct node *)malloc(sizeof(struct node));
            for(int j=0;j<26;j++)
                newnode->nexte[j]=0;
            newnode->count=0;
            newnode->fail=0;
            p->nexte[index]=newnode;
        }
        p=p->nexte[index];
        i++;
    }
    p->count++;
}

二、fail指针的建立

fail指针与KMP中next数组类似,当字符匹配失败时,需利用当前点的fail指针指向在字典树中根节点到当前点所构成的字符串与其他字符串的最大后缀的节点。

自己都觉得很拗口。。。看个图

图中虚线就是各个点的fail指针,根节点的fail指针当然指向根节点root,再看最下面的叶子节点e,在当前点所表示的字符串为she,那我们看看其他哪个字符串与she的公共后缀最大,很显然是he,那么当前e的fail指针即指向he中的e节点。

懂了fail指针究竟为何物后,看看怎么来求这个指针

这里利用BFS来求,直接与根节点相连的节点的fail指针直接指向根节点即可,其他节点:设当前点为father,它的孩子节点为child,求child的fail,那么就找father节点的fail指针指向的点a,再看点a的孩子节点是否有与child节点表示的字符一样的,如果有那么child节点的fail指针就指向a,如果没有就继续上面的过程,直到指向根节点。

是不是感觉跟KMP中next数组的求法很像呢?

void buildfail()
{
    root->fail=NULL;
    head=0;
    tail=1;
    node *p=NULL;
    q[head]=root;
    while(head<tail){
        node *temp=q[head++];
        for(int i=0;i<26;i++){                 //代表这个节点下的nexte数组的26个值(a,b,c...z),依次遍历查找
            if(temp->nexte[i]){
                if(temp==root)             //如果是根节点,那么他的孩子的fail指针指向根节点
                    temp->nexte[i]->fail=root;
                else {
                    p=temp->fail;             //否则找它父节点的fail指针
                    while(p){
                        if(p->nexte[i]){
                            temp->nexte[i]->fail=p->nexte[i];
                            break;
                        }
                        p=p->fail;
                    }
                    if(p==NULL)
                        temp->nexte[i]->fail=root;
                }
                  q[tail++]=temp->nexte[i];
            }
        }
    }
}

第三、就是查询操作了

如果节点匹配,就一直进行下去,每次都加每个节点的count,并标记为-1,但只有代表单词结尾的字符count才是1,其他的为0.

如果不匹配,那么就找当前节点的fail指针指向的节点,直到指向root此次循环结束。

一直重复上面两个过程直到模式串走完

void query(char *str)
{
    int i=0,index,len=strlen(str);
    node *p=root;
    while(str[i]){
        index=str[i]-'a';
        while(p->nexte[index]==NULL&&p!=root)
            p=p->fail;
        p=p->nexte[index];
        p=(p==NULL)?root:p;            //由于上面的while循环,如果为空,那么p一定是root节点
        node *temp=p;
        while(temp!=root&&temp->count!=-1){
            ans+=temp->count;
            temp->count=-1;
            temp=temp->fail;
        }
        i++;
    }
}

如果基本明白了AC自动机,那么就来看一下hdu 2222的一个例题吧

http://acm.hdu.edu.cn/showproblem.php?pid=2222

附AC代码

#include<bits/stdc++.h>
#define exp 1e-8
#define mian main
#define pii pair<int,int>
#define pll pair<ll,ll>
#define ll long long
#define pb push_back
#define PI  acos(-1.0)
#define inf 0x3f3f3f3f
#define w(x) while(x--)
#define int_max 2147483647
#define lowbit(x) (x)&(-x)
#define gcd(a,b) __gcd(a,b)
#define pq(x)  priority_queue<x>
#define ull unsigned long long
#define scn(x) scanf("%d",&x)
#define scl(x) scanf("%lld",&x)
#define pl(a,n) next_permutation(a,a+n)
#define ios ios::sync_with_stdio(false)
#define met(a,x) memset((a),(x),sizeof((a)))
using namespace std;
const int N = 1e6+10;
const int maxn=1e7+10;
struct node
{
    node *fail;
    node *nexte[30];
    int count;
    node()
    {
        fail=NULL;
        count=0;
        met(nexte,0);
    }
}*q[N];
char key[100];
char str[N];        //模式串
int head,tail,ans;
node *root;          //根节点
node *newnode;
void insert(char *s)
{
    node *p=root;
    int index;
    int i=0;
    while(s[i]){
        index=s[i]-'a';
        if(p->nexte[index]==NULL){
            newnode=(struct node *)malloc(sizeof(struct node));
            for(int j=0;j<26;j++)
                newnode->nexte[j]=0;
            newnode->count=0;
            newnode->fail=0;
            p->nexte[index]=newnode;
        }
        p=p->nexte[index];
        i++;
    }
    p->count++;
}
void buildfail()
{
    root->fail=NULL;
    head=0;
    tail=1;
    node *p=NULL;
    q[head]=root;
    while(head<tail){
        node *temp=q[head++];
        for(int i=0;i<26;i++){
            if(temp->nexte[i]){
                if(temp==root)             //如果是根节点,那么他的孩子的fail指针指向根节点
                    temp->nexte[i]->fail=root;
                else {
                    p=temp->fail;             //否则找它父节点的fail指针
                    while(p){
                        if(p->nexte[i]){
                            temp->nexte[i]->fail=p->nexte[i];
                            break;
                        }
                        p=p->fail;
                    }
                    if(p==NULL)
                        temp->nexte[i]->fail=root;
                }
                  q[tail++]=temp->nexte[i];
            }
        }
    }
}
void query(char *str)
{
    int i=0,index,len=strlen(str);
    node *p=root;
    while(str[i]){
        index=str[i]-'a';
        while(p->nexte[index]==NULL&&p!=root)
            p=p->fail;
        p=p->nexte[index];
        p=(p==NULL)?root:p;
        node *temp=p;
        while(temp!=root&&temp->count!=-1){
            ans+=temp->count;
            temp->count=-1;
            temp=temp->fail;
        }
        i++;
    }
}
int main()
{
         int t;
         scanf("%d",&t);
         while(t--){
                ans=0;
            root=(struct node *)malloc(sizeof(struct node));
         for(int j=0;j<26;j++)
            root->nexte[j]=0;
         root->fail=0;
         root->count=0;
            int x;
            scanf("%d",&x);
            getchar();
            for(int i=1;i<=x;i++){
                gets(key);
                insert(key);
            }
            buildfail();
            gets(str);
            query(str);
            printf("%d\n",ans);
         }
}

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是AC自动机Java模板题U301874的代码实现: ```java import java.io.*; import java.util.*; public class Main { static final int MAXN = 100010, MAXM = 200010; static final int INF = 0x3f3f3f3f; static int n, m, cnt; static int[] trie = new int[MAXN * 30], idx = new int[MAXN * 30]; static int[] fail = new int[MAXN * 30], vis = new int[MAXN * 30]; static int[] head = new int[MAXN], nxt = new int[MAXM], ver = new int[MAXM], tot; static int[] deg = new int[MAXN]; static char[][] str = new char[MAXN][30]; static Map<Character, Integer> map = new HashMap<>(); static int add(char[] s) { int p = 0; for (int i = 0; s[i] != '\0'; i++) { char c = s[i]; if (!map.containsKey(c)) { map.put(c, ++cnt); } int u = map.get(c); if (trie[p] == 0) { trie[p] = ++tot; } p = trie[p]; idx[p] = u; } return p; } static void build() { Queue<Integer> q = new LinkedList<>(); for (int i = 1; i <= cnt; i++) { int u = map.get(str[i][0]); if (trie[0] == 0) { trie[0] = ++tot; } int p = trie[0]; idx[p] = 0; if (trie[p + u] == 0) { trie[p + u] = ++tot; } fail[p + u] = p; q.offer(p + u); } while (!q.isEmpty()) { int u = q.poll(); for (int i = head[idx[u]]; i != 0; i = nxt[i]) { int v = ver[i]; int p = fail[u], q = 0; while (p != 0 && trie[p + v] == 0) { p = fail[p]; } if (trie[p + v] != 0) { q = trie[p + v]; } fail[u + v] = q; q.offer(u + v); } } } static void addEdge(int u, int v) { ver[++tot] = v; nxt[tot] = head[u]; head[u] = tot; } static void topo() { Queue<Integer> q = new LinkedList<>(); for (int i = 1; i <= tot; i++) { if (deg[i] == 0) { q.offer(i); } } while (!q.isEmpty()) { int u = q.poll(); vis[u] = 1; for (int i = head[u]; i != 0; i = nxt[i]) { int v = ver[i]; deg[v]--; if (deg[v] == 0) { q.offer(v); } } } } public static void main(String[] args) { Scanner in = new Scanner(System.in); n = in.nextInt(); for (int i = 1; i <= n; i++) { String s = in.next(); str[i] = s.toCharArray(); add(str[i]); } m = in.nextInt(); for (int i = 1; i <= m; i++) { String s = in.next(); int len = s.length(); int p = 0; for (int j = 0; j < len; j++) { char c = s.charAt(j); if (!map.containsKey(c)) { break; } int u = map.get(c); if (trie[p + u] == 0) { break; } p = trie[p + u]; deg[p]++; addEdge(p, p + u); } } build(); topo(); for (int i = 1; i <= n; i++) { int p = 0; for (int j = 0; str[i][j] != '\0'; j++) { p = trie[p + map.get(str[i][j])]; if (vis[p] == 1) { System.out.println("YES"); break; } } if (vis[p] == 0) { System.out.println("NO"); } } } } ``` 该题解释:给定 $n$ 个模式串和 $m$ 个文本串,问每个模式串是否存在于文本串中。其中,模式串和文本串都只包含小写字母。 AC自动机是一种可以高效匹配多个模式串的数据结构。该题需要使用AC自动机进行多模式串匹配。 代码实现中,使用一个trie树存储所有模式串,每个节点记录了下一层的字符和对应的子节点编号。同时,使用一个map记录每个字符对应的编号,以便于在trie树中查找。 在trie树构建完成后,使用广度优先搜索构建fail指针。搜索过程中,对于每个节点 $u$,依次查找其父亲节点 $p$ 直到根节点,若 $p$ 的子节点 $v$ 与 $u$ 的子节点 $w$ 匹配,则令 $u$ 的fail指针指向 $p+v$ 节点。如果 $p+v$ 节点不存在,则继续向根节点搜索。 在fail指针构建完成后,对于每个文本串,从根节点开始依次匹配每个字符,直到匹配完成或者无法匹配。如果最终匹配的节点已经被访问,则说明该模式串存在于文本串中。 时间复杂度为 $O(\sum |P|+|T|)$,其中 $\sum |P|$ 表示所有模式串的长度之和,$|T|$ 表示所有文本串的长度之和。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值