AC自动机

AC自动机

前置知识:KMP算法、Trie

简介

K M P KMP KMP算法用于进行单个模式串的匹配,而 A C AC AC自动机则是适用于多模式串的匹配,即可以匹配多个模式串在主串中,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法。

原理

回想一下 K M P KMP KMP算法是通过构建一个 n e x t next next数组,每次失配后,通过找到该位置的最长公共前后缀的值,移动到对应位置,从而避免多次不必要的比较,同样的在 A C AC AC自动机算法中,有一个类似与 n e x t next next的东西,帮助我们在每次失配时,能够找到正确的位置,避免多次比较,我们叫做失配指针

Fail指针的作用:匹配失败后,能够指向正确的位置。

Fail的实质含义:假定点 i i i F a i l Fail Fail 指针指向 j j j, 则有 r o o t root root j j j 的字符串是 r o o t root root i i i 的一个后缀。

  • 为了尽可能少匹配, F a i l Fail Fail指针指向的节点深度要尽可能的大。

  • A C AC AC自动机使用 T r i e Trie Trie树来存放所有的模式串

假定模式串为:she、his、he、hers,构建一棵Trie树如下图

如何求 F a i l Fail Fail指针呢?

  • 根据定义可得,第一层的 F a i l Fail Fail指针是指向根节点的。
  • i i i F a i l Fail Fail指针的深度是小于 i i i的(后缀属性)

求某个点 i i i F a i l Fail Fail指针,假定点 i i i的父亲节点为 k k k,那么如果 F a i l [ k ] Fail[k] Fail[k]的儿子节点中也有和 i i i相同的字符,那么 i i i可以直接指过去

求红色节点的 F a i l Fail Fail指针,找到它的父亲节点(绿色),父亲节点的 F a i l Fail Fail指向的节点(黄色),该黄色节点的儿子中若是有和红色节点相同的,红色节点的 F a i l Fail Fail指针直接指向该儿子节点(紫色)即可,如果没有,则直接指向根节点。

构建完成后如下图所示:

由于在求某个节点 F a i l Fail Fail指针的时候,需要知道该节点父亲的 F a i l Fail Fail,因此使用 b f s bfs bfs,一层一层地求 F a i l Fail Fail

注意:假定 T r i e Trie Trie树全部由小写字母构成,我们在对每一个节点的儿子节点遍历时,需要遍历26次,其中有些节点不一定存在,若是不存在,我们可以将该节点构建出来,设为该节点父亲节点 F a i l Fail Fail指向的节点对应的儿子。如下图:

灰色节点并不存在,但是可以构建出来直接指向该节点父亲(绿色)的 F a i l Fail Fail指向的黄色节点对应的儿子(红色),保证存在性,并且在文本查找过程中,可以直接跳转过去。

查询操作

构建好 F a i l Fail Fail指针后,我们就可以进行查询了,为了避免重复计算,每经过一个点就加上以这个点作为结尾的模式串数量,然后标记为-1,如果某个位置匹配不成功,则跳转到 F a i l Fail Fail指针位置

例题

来看一道模板题(https://www.luogu.com.cn/problem/P3808)

题目描述

给定 n个模式串 s i s_i si 和一个文本串 t t t,求有多少个不同的模式串在文本串里出现过。
两个模式串不同当且仅当他们编号不同。

输入格式

第一行是一个整数,表示模式串的个数 n n n
第 2 到第 ( n + 1 ) (n + 1) (n+1) 行,每行一个字符串,第 ( i + 1 ) (i + 1) (i+1) 行的字符串表示编号为 i i i 的模式串 s i s_i si​。
最后一行是一个字符串,表示文本串 t t t

输出格式

输出一行一个整数表示答案。

输入样例

3
a
aa
aa
aaa

输出样例

3

数据规模与约定

  • 对于 50 % 50\% 50% 的数据,保证 n = 1 n = 1 n=1
  • 对于 100 % 100\% 100% 的数据,保证 1 ≤ n ≤ 1 0 6 1 \leq n \leq 10^6 1n106 1 ≤ ∣ t ∣ ≤ 1 0 6 1 \leq |t| \leq 10^6 1t106 1 ≤ ∑ i = 1 n ∣ s i ∣ ≤ 1 0 6 1 \leq \sum\limits_{i = 1}^n |s_i| \leq 10^6 1i=1nsi106 s i , t s_i, t si,t 中仅包含小写字母。

参考程序

#include <iostream>
#include <cstring>
#include <algorithm>
#include <queue>

using namespace std;

const int N = 1e6 + 15;
int t[N][26];
int fail[N];
int cnt[N];
char st[N];
queue <int> q;
int idx;

void init () {
    memset (t, 0, sizeof t);
    memset (fail, 0, sizeof fail);
    memset (cnt, 0, sizeof cnt);
}

void insert (char *s) { // 构建trie树
    int p = 0;
    for (int i = 0; s[i]; i ++) {
        int ne = s[i] - 'a';
        if (!t[p][ne]) t[p][ne] = ++ idx;
        p = t[p][ne];
    }
    cnt[p] ++;
}

void getFail () {
    
    for (int i = 0 ; i < 26; i ++) 
        if (t[0][i]) {
            fail[t[0][i]] = 0; // 指向根节点
            q.push(t[0][i]);
        }
    
    while (!q.empty()) {
        int u = q.front();
        q.pop ();
        
        for (int i = 0; i < 26; i ++) {
            if (t[u][i]) { // 存在该节点
                fail[t[u][i]] = t[fail[u]][i];
                q.push (t[u][i]);
            } else  // 不存在
                t[u][i] = t[fail[u]][i];
        }
    }
}

int query (string s) {
    int u = 0, ans = 0;
    for (int i = 0; i < s.size(); i ++) {
        u = t[u][s[i] - 'a'];
        for (int j = u; cnt[j] != -1; j = fail[j]) {
            ans += cnt[j];
            cnt[j] = -1;
        }
    }
    return ans;
}

int main () {
    ios::sync_with_stdio (0);
    cin.tie(0);
    int n;
    string st1;
    init ();
    cin >> n;
    for (int i = 1; i <= n; i ++) {
        cin >> st;
        insert (st);
    }
    getFail ();
    cin >> st1;
    cout << query(st1) << endl;
    return 0;
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值