AC自动机详解 (P3808 模板)

AC自动机笔记

0.0 前言

哇,好久之前就看了 KMP 和 Trie 树,但是似乎一直没看懂 AC自动机??
今天灵光一闪,加上之前看到一些博客和视频,瞬间秒懂啊... 其实这个玩意还是蛮好理解的...

在这里先给一个样例,之后也都好举例子.

模式串:
5
FG
HE
HERS
HIS
SHE

匹配串:HISHERS

1.1 深度理解 KMP

KMP 算法的精华部分即其处理的 Next 数组.
Next 数组所存的数值即代表j之前的字符串中有最大长度为k 的相同前后缀.
记录这个有什么用呢?
对于ABCDABC这个串,如果我们匹配ABCDABTBCDABC这个长串,当匹配到第7个字符T的时候就不匹配了,我们就不用直接移到B开始再比一次,而是直接移到第5位来比较,岂不美哉?
Next 数组存的是最长的相同的串长度,再从第一个开始匹配明显是不需要的,我的最长公共前后缀的位置即为第一个可能匹配成功的位置.
所以其正确性很明显,而 KMP 其中的失配匹配思想 (姑且让我这么说说罢) 是 AC自动机中很重要的一环.

1.2 利用 Trie 树

关于AC自动机中的 Trie 树,其实其最大做用就是用来存储给出的字典.
Trie 树在处理很多查找问题时都会有不错的效用.01 Trie 树也是处理异或问题的一大利器.
利用 Trie 树,我们对上文中的例子就可以构建出一张图:
(先不要管点上的数字,度娘的图...虚线后面会用到)
0d338744ebf81a4c6021c823dd2a6059242da6cc.jpg

2.0 Trie 树上的 KMP

以上二者即为 AC自动机 的前置技能.
我们需要建立一棵 Trie 树,用于存储其给出的字典.
同时我们需要利用 KMP 其中的失配匹配思想,用以优化时间复杂度.

2.1 Fail 指针

概念

AC 自动机中的 Fail 指针,其实就相当于 KMP 中的 Next 数组.
我们先看看 Fail 是怎么跳的.
然后再一次搬出上文那张图:
0d338744ebf81a4c6021c823dd2a6059242da6cc.jpg

此时我们便可以对图中的虚线作出解释了.
每个点所对应虚线指向的地方,即为这个点的 Fail 指针.

Fail 指针指向的地方是与 从Trie 树起点到这个点 公共前后缀最长的地方.
同时要求这个前后缀不能与其等长(否则不就是自己么?).
比如说 90 这个节点, 从起点到这个点所形成的串即为 S H.
然后我们找到另外一个与其公共前后缀最长的点,就是 74 了.
此时它们的公共前后缀即为 H.
又如 S H EH E 这两个位置.

匹配过程

然后此时我们看一下怎么匹配所给出的匹配串.

H I S H E R S

先匹配 H 然后走进 74 这个节点.
继续匹配 I 然后走进 80 这个节点.
继续匹配 S 然后发现这里有一个单词,于是统计答案.

统计到 S 后,我们下一个看往的方向即为它的 Fail -- 85.
因为它们有公共前后缀 S.

然后发现 85 的后一个正好即为 H,然后我们与之匹配.
再匹配 90和91. 然后我在 91 统计答案.

因为后面已经无路可走,于是我们跳到 91 的 Fail,即为 76.
它们有公共前后缀 H E.

然后我们继续跑到 86 ,此时需要被匹配的串已经走完了,我们整个过程结束.

2.2 Fail 的寻找

可以看出,当我们 Fail 找完之后,整个 AC 自动机的工作其实已经完成了一大半.那么我们如何处理出 Fail 指针呢?
我们用广搜实现.

首先对于根节点的子节点,因为只有一个字母,所以不可能有其余的子串与其有公共前后缀,所以直接会根节点.

然后对于接下来的 Fail ,我们把它直接赋为它爸爸的Fail 子节点中与其字母相等的子节点. 上一小段代码:

  for(int i=0;i<26;i++)
        if(ch[u][i])
            {
                f[ch[u][i]]=ch[f[u]][i];
                q.push(ch[u][i]);
            }

2.3 Code

/*
Problem : AC自动机
Time : Day -94
*/
#include<bits/stdc++.h>
#define maxn 1000008
using namespace std;

struct AC_machine
{
    int ch[maxn][26];
    int num[maxn],f[maxn];
    // f即为fail指针.
    int tot;
    void insert(string s)
    {
        int u=0,len=s.length();
        for(int i=0;i<len;i++)
        {
            if(!ch[u][s[i]-'a'])
                ch[u][s[i]-'a']=++tot;
            u=ch[u][s[i]-'a'];
        }
        num[u]++;
    } //往Trie树里插入元素.
    void build()
    {
        queue<int> q;
        for(int i=0;i<26;i++)
        {
            if(ch[0][i])
            f[ch[0][i]]=0,
            //第一层与其他单词不可能有公共前后缀,fail直接为根.
            q.push(ch[0][i]);
        }
        while(q.empty()!=1)
        {
            int u=q.front(); q.pop();
            for(int i=0;i<26;i++)
            if(ch[u][i])
            {
                f[ch[u][i]]=ch[f[u]][i];
                q.push(ch[u][i]);
                //画图理解贼容易.
            }
            else ch[u][i]=ch[f[u]][i];
            //这一步直接省略了查询时的比较.
        }
    } //构建Fail指针.
    int query(string s) 
    {
        int u=0,len=s.length(),ans = 0;
        for(int i=0;i<len;i++)
        {
            u=ch[u][s[i]-'a'];
            for(int j=u;j&&num[j]!=-1;j=f[j]) 
            //就用这个循环实现跳的过程.
            ans+=num[j],num[j]=-1;
            //因为直接已经在每个单词的最后面打了标记,所以直接加上即可.
        }
    return ans;
    }
}AC;
int n;string s;
int main()
{
    cin>>n;
    for(int i=1;i<=n;i++)
    {
        cin>>s;
        AC.insert(s);
    }
    AC.build();
    cin>>s;
    cout<<AC.query(s)<<endl;
}


几个常用的优化

1.类路径压缩(构建 Fail 时优化)
详见以下代码:

if(ch[u][i])
            {
                f[ch[u][i]]=ch[f[u]][i];
                q.push(ch[u][i]);
            }
            else ch[u][i]=ch[f[u]][i];

此步操作使得在比较时省去了 While 循环.
如果没有匹配,直接进入 Fail 的匹配之中.
(参考刘汝佳《算法竞赛入门经典训练指南》P216).

2.后缀链接
这里我们需要多加一个 last 数组.
同样见代码:

  • 构建 Fail 部分
if(ch[u][i])
            {
                f[ch[u][i]]=ch[f[u]][i];
                q.push(ch[u][i]);
                last[u]=num[f[u]]?f[u]:last[f[p]]
            }
            else ch[u][i]=ch[f[u]][i];
  • 匹配查询过程
for(int i=0;i<len;i++)
        {
            u=ch[u][s[i]-'a'];
            for(int j=u;j&&num[j]!=-1;j=last[j]) 
            ans+=num[j],num[j]=-1;
        }

此处我们的 last 大概可以理解为一个 超级 Fail.
因为我们只有到根节点时才会重新匹配一个字母
所以我们此时直接记录一个last ,直接结束当前匹配过程.
直接省去原 Fail 指针到可以匹配的节点之间的距离.
同时结合上文类路径压缩,在匹配时可以完全不使用原 Fail.

3.树形DP优化
此处树形DP优化的是查询部分.
首先我们可以发现, Fail 指针是绝对满足树形结构的.
显而易见,每个点的 Fail 都仅指向一个一个节点.
然后具体做的过程我似乎还没学懂...
不过也可以理解为构建一个 超级 Fail,优化的部分与 2 差不多.

小结

AC自动机算法的精华在于Fail 所体现的失配匹配思想.
在 KMP 中也都有体现,在不同的题目中,也应巧妙运用这一性质.




参考(讲的都比我好QwQ):

转载于:https://www.cnblogs.com/Kv-Stalin/p/9443622.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
疫情居家办公系统管理系统按照操作主体分为管理员和用户。管理员的功能包括办公设备管理、部门信息管理、字典管理、公告信息管理、请假信息管理、签到信息管理、留言管理、外出报备管理、薪资管理、用户管理、公司资料管理、管理员管理。用户的功能等。该系统采用了MySQL数据库,Java语言,Spring Boot框架等技术进行编程实现。 疫情居家办公系统管理系统可以提高疫情居家办公系统信息管理问题的解决效率,优化疫情居家办公系统信息处理流程,保证疫情居家办公系统信息数据的安全,它是一个非常可靠,非常安全的应用程序。 管理员权限操作的功能包括管理公告,管理疫情居家办公系统信息,包括外出报备管理,培训管理,签到管理,薪资管理等,可以管理公告。 外出报备管理界面,管理员在外出报备管理界面中可以对界面中显示,可以对外出报备信息的外出报备状态进行查看,可以添加新的外出报备信息等。签到管理界面,管理员在签到管理界面中查看签到种类信息,签到描述信息,新增签到信息等。公告管理界面,管理员在公告管理界面中新增公告,可以删除公告。公告类型管理界面,管理员在公告类型管理界面查看公告的工作状态,可以对公告的数据进行导出,可以添加新公告的信息,可以编辑公告信息,删除公告信息
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值