AC自动机模版——字符串

最新推荐文章于 2021-04-11 17:52:23 发布

做一只大熊猫

最新推荐文章于 2021-04-11 17:52:23 发布

阅读量219

点赞数 5

分类专栏：算法模版

本文链接：https://blog.csdn.net/qq_34261446/article/details/108179170

版权

算法模版专栏收录该内容

44 篇文章 1 订阅

订阅专栏

概述

作用

AC自动机主要用于解决多模式串的匹配问题（具体指的是：如下图中模式串 p中有多个字符串，问这些字符串在主串s的出现的总次数），
是字典树(trie树)的变种，一种伪树形结构(主体是树形的，但是由于加入了失败指针，使得它变成了一个有向图)；

过程

在这里插入图片描述

讲解

讲解视频

代码

#include<iostream>
#include<string.h>
#include<string>
#include<vector>
#include<queue>
using namespace std;

struct Trie
{
    int son[26] = { 0 };
    int cnt = 0;                //以当前节点为终点的 模式字符串 的数量
    int fail = -1;              //fail == -1 表示没有指向的节点了，fail == 0 表示当前节点的 fail指针指向 根节点0，，，注意根节点0 也是没有指向的节点的，所以它的fail指针也是指向 -1点
};
vector<Trie> trie;
int idx = 0;

void insert(string s)
{
    int p = 0;
    for(int i = 0; i < s.size(); i ++)
    {
        int c = s[i] - 'a';
        if(trie[p].son[c] == 0) trie[p].son[c] = ++ idx;
        p = trie[p].son[c];
    }
    trie[p].cnt ++;
}

void fail_pre()
{
    queue<int> q;
    for(int i = 0; i < 26; i ++)
    {
        if(trie[0].son[i])
        {
            int sn = trie[0].son[i];
            trie[sn].fail = 0;
            q.push(sn);
        }
    }

    while(q.size())
    {
        int f = q.front(); q.pop();
        for(int i = 0; i < 26; i ++)
        {
            if(trie[f].son[i])
            {
                int now = trie[f].son[i];
                int ffail = trie[f].fail;
                while(~ ffail && ! trie[ffail].son[i]) ffail = trie[ffail].fail;
                if(~ ffail) trie[now].fail = trie[ffail].son[i];
                else trie[now].fail = 0;
                q.push(now);
            }
        }
    }
}

int query(string s)
{
    int ans = 0;
    int p = 0;
    for(int i = 0; i < s.size(); i ++)
    {
        int c = s[i] - 'a';
        while(! trie[p].son[c] && ~ trie[p].fail) p = trie[p].fail;     //注意：“ ! trie[p].son[c] ” 表示的意思是p这个节点为叶子节点
        if(trie[p].son[c]) p = trie[p].son[c];          //如果找到了 同字符的儿子，用p记录下这个儿子的编号，
        else continue;                                  //如果没有找到，p 的值被赋值为 根节点的编号0

        int p2 = p;
        while(~ trie[p2].fail)      //注意 抛去不存在节点的fail指针值为-1，那么只有 根节点的0点fail指针为-1, 那么这个while循环里面的意思是：当p不为根节点的时候
        {
            ans += trie[p2].cnt;
            p2 = trie[p2].fail;
        }
    }
    return ans;
}


int main()
{
    trie.resize(1e5);           //树中最大的节点的数量1e5   
    insert("she");
    insert("he");
    insert("her");
    insert("his");
    insert("this");
    insert("is");
    fail_pre();
    int ans = query("sherthis");
    printf("%d\n", ans);

    return 0;
}

另一个模版

#include <queue>
#include <cstdlib>
#include <cmath>
#include <cstdio>
#include <string>
#include <cstring>
#include <iostream>
#include <algorithm>
using namespace std;
typedef long long ll;
const int maxn =  2*1e6+9;

int trie[maxn][26]; //字典树
int cntword[maxn];  //记录该单词出现次数
int fail[maxn];     //失败时的回溯指针
int cnt = 0;

void insertWords(string s){
    int root = 0;
    for(int i=0;i<s.size();i++){
        int next = s[i] - 'a';
        if(!trie[root][next])
            trie[root][next] = ++cnt;
        root = trie[root][next];
    }
    cntword[root]++;      //当前节点单词数+1
}
void getFail(){
    queue <int>q;
    for(int i=0;i<26;i++){      //将第二层所有出现了的字母扔进队列
        if(trie[0][i]){
            fail[trie[0][i]] = 0;
            q.push(trie[0][i]);
        }
    }

    //fail[now]    ->当前节点now的失败指针指向的地方
    //tire[now][i] -> 下一个字母为i+'a'的节点的下标为tire[now][i]
        while(!q.empty()){
            int now = q.front();
            q.pop();

            for(int i=0;i<26;i++)
            {      //查询26个字母
                if(trie[now][i]){
                    //如果有这个子节点为字母i+'a',则
                    //让这个节点的失败指针指向(((他父亲节点)的失败指针所指向的那个节点)的相同字符节点)
                    //有点绕,为了方便理解特意加了括号

                    fail[trie[now][i]] = trie[fail[now]][i];
                    q.push(trie[now][i]);
                }
                else//否则就让当前节点的这个子节点
                    //指向当前节点fail指针的这个子节点
                    trie[now][i] = trie[fail[now]][i];
            }
        }
}


int query(string s){
    int now = 0,ans = 0;
    for(int i=0;i<s.size();i++){    //遍历文本串
        now = trie[now][s[i]-'a'];  //从s[i]点开始寻找
        for(int j=now;j && cntword[j]!=-1;j=fail[j]){
            //一直向下寻找,直到匹配失败(失败指针指向根或者当前节点已找过).
            ans += cntword[j];
            cntword[j] = -1;    //将遍历国后的节点标记,防止重复计算
        }
    }
    return ans;
}

int main() {
    int n;
    string s;
    cin >> n;
    for(int i=0;i<n;i++){
        cin >> s ;
        insertWords(s);
    }
    fail[0] = 0;
    getFail();
    cin >> s ;
    cout << query(s) << endl;
    return 0;
}

做一只大熊猫

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AC自动机模版——字符串

概述作用AC自动机主要用于解决多模式串的匹配问题（具体指的是：如下图中模式串 p中有多个字符串，问这些字符串在主串s的出现的总次数），是字典树(trie树)的变种，一种伪树形结构(主体是树形的，但是由于加入了失败指针，使得它变成了一个有向图)；过程讲解讲解视频代码#include<iostream>#include<string.h>#include<string>#include<vector&gt
复制链接

扫一扫