走进AC自动机

走进AC自动机

AC自动机,听这名字就很高大上的亚子,起初还以为就是“AC自动机”。。。。。。开始真正的走进AC自动机了

简单介绍:

AC自动机即为:多模匹配问题(像:经典的KMP算法就是单一模式匹配),于是要学会AC自动机,我们必须知道什么是Trie,也就是字典树Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。

于是就了解字典树是个啥东西


字典树


在这里插入图片描述
看图秒懂,有树的基本知识,就能明白字典树是个什么东东了

基本性质:

1、根节点不包含字符,除根节点外每一个节点都只包含一个字符;
2、从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;
3、每个节点的所有子节点包含的字符都不相同。

实现方法:

(1) 从根结点开始一次搜索;
(2) 取得要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;
(3) 在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。
(4) 迭代过程……
(5) 在某个结点处,关键词的所有字母已被取出,则读取附在该结点上的信息,即完成查找。

再回到AC自动机:
AC自动机需要先了解的知识:字典树、KMP算法(其实也就是其中的构造失败指针像KMP中next函数一样比较巧妙,但是不了解也不是不行)
如果想看KMP算法的话,这插个小链接:模式匹配之BF算法与KMP算法

其中总结来说:
AC自动机算法分为3步:构造一棵Trie树,构造失败指针模式匹配过程


下面内容就是转载的大佬的博客:https://www.bestsort.cn/2019/04/28/402


下面开始用图学习ac自动机吧(个人比较喜欢放图,能用一张图解决的绝不叨叨)
首先给定模式串"ash",“shex”,“bcd”,“sha”,然后我们根据模式串建立如下trie树:

在这里插入图片描述

然后我们再了解下一步:
ac自动机,就是在tire树的基础上,增加一个fail指针,如果当前点匹配失败,则将指针转移到fail指针指向的地方,这样就不用回溯,而可以路匹配下去了.(当前模式串后缀和fail指针指向的模式串部分前缀相同,如abce和bcd,我们找到c发现下一个要找的不是e,就跳到bcd中的c处,看看此处的下一个字符(d)是不是应该找的那一个)

一般,fail指针的构建都是用bfs实现的
首先每个模式串的首字母肯定是指向根节点的(一个字母你瞎指什么指,指了也是头字母有什么用嘛)
在这里插入图片描述
现在第一层bfs遍历完了,开始第二层
(根节点为第0层)第二层a的子节点为s,但是我们还是要从a-z遍历,如果不存在这个子节点我们就让他指向根节点(如下图红色的a)
在这里插入图片描述
当我们遍历到s的时候,由于存在s这个节点,我们就让他的fail指针指向他父亲节点(a)的fail指针指向的那个节点(根)的具有相同字母的子节点(第一层的s),也就是这样
在这里插入图片描述
按照相同规律构建第二层后,到了第三层的h点,还是按照上面的规则,我们找到h的父亲节点(s)fail指针指向的那个位置(第一层的s)然后指向它所指向的相同字母根->s->h的这个链的h节点,如下图
在这里插入图片描述

完全构造好后的树
在这里插入图片描述
然后匹配就很简单了,这里以ashe为例
我们先用ash匹配,到h了发现:诶这里ash是一个完整的模式串,好的ans++,然后找下一个e,可是ash后面没字母了啊,我们就跳到hfail指针指向的那个h继续找,还是没有?再跳,结果当前的h指向的是根节点,又从根节点找,然而还是没有找到e,程序END
在这里插入图片描述
模板题: hdu 2222

开始想的肯定就只要用个KMP算法就应该能A吧,但是TLE,于是就学了AC自动机,其中好像string会A不了,还是用c的char[]数组吧,代码如下(惭愧、看着别人的模板敲的。。。。):

#include<cstdio>
#include<cstring>
#include<queue>
#include<iostream>
#include<algorithm>
#define Maxsize 1000010
using namespace std;

int tree[Maxsize][26];    //字典树
int cntWord[Maxsize];      //记录结点出现的单词次数
int fail[Maxsize];        //失败时的回溯指针
int cnt=0;

char str[55];             //题目中需要判断的关键字
char a[Maxsize];          //模式串

/**建字典树*/
void insertWord(char s[])
{
    int root=0;
    int len=strlen(s);
    for(int i=0;i<len;i++)
    {
        int next=s[i]-'a';
        if(tree[root][next]==0)
            tree[root][next]=++cnt;
        root=tree[root][next];
    }
    cntWord[root]++;            //当前结点单词数+1
}
/**fail[]数组建立*/
void getFail()
{
    fail[0]=0;    //根结点
    queue<int>q;          //为了方便用了STL的队列
    for(int i=0;i<26;i++)     //将第二层所有出现的字母扔进队列(其中根节点表示第一层)
    {
        if(tree[0][i])
        {
            fail[tree[0][i]]=0;
            q.push(tree[0][i]);
        }
    }
    /**fail[now]           当前结点now的失败指针指向的地方*/
    /**tree[now][i]        下一个字母为i+'a'的结点的下标为tree[now][i]*/
    while(!q.empty())
    {
        int now=q.front();
        q.pop();

        for(int i=0;i<26;i++)     //查询26个字母
        {
            if(tree[now][i])
            {/**如果有这个子节点为字母i+'a',则让这个结点的
                失败指针指向((他父亲结点)的失败指针所指向的那个结点)的下一个结点*/
                fail[tree[now][i]]=tree[fail[now]][i];
                q.push(tree[now][i]);
            }
            else
            {/**否则就让当前结点的这个子节点指向当前结点fail指针的那个结点*/
                tree[now][i]=tree[fail[now]][i];
            }
        }
    }
}

int query(char s[])
{
    int now=0;
    int ans=0;    //看是否有多少串能够满足
    int len=strlen(s);
    for(int i=0;i<len;i++)   //遍历文本(模式)串
    {
        now=tree[now][s[i]-'a'];     //从s[i]开始寻找
        for(int j=now;j&&cntWord[j]!=-1;j=fail[j])
        {/**一直向下寻找,直到匹配失败(失败指针指向根或者当前结点已找过*/
            ans+=cntWord[j];
            cntWord[j]=-1;    //标记已经遍历过的结点
        }
    }
    return ans;
}
int main()
{
    int t;
    scanf("%d",&t);
    while(t--)
    {
        memset(tree,0,sizeof(tree));
        int n;
        scanf("%d",&n);
        while(n--)
        {
            scanf("%s",str);
            insertWord(str);
        }
        getFail();

        scanf("%s",a);

        int num=query(a);

        printf("%d\n",num);
    }
    return 0;
}

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python AC自动机一个用于字符串匹配的算法,它可以高效地在一段文本中查找多个预定义的模式。它的实现可以使用多种库,其中包括ac自动机python和ahocorasick-python。 ac自动机python是一个对标准的ac自动机算法进行了完善和优化的实现,适用于主流的Python发行版,包括Python2和Python3。它提供了更准确的结果,并且可以通过pip进行安装,具体的安装方法可以参考官方文档或者使用pip install命令进行安装。 ahocorasick-python是另一个实现AC自动机的库,它也可以用于Python2和Python3。你可以通过官方网站或者GitHub源码获取更多关于该库的信息和安装指南。 对于AC自动机的使用,一个常见的例子是在一段包含m个字符的文章中查找n个单词出现的次数。要了解AC自动机,需要有关于模式(字典)Trie和KMP模式匹配算法的基础知识。AC自动机的算法包括三个步骤:构造一棵Trie,构造失败指针和模式匹配过程。在构造好AC自动机后,可以使用它来快速地在文本中查找预定义的模式,并统计它们的出现次数。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [ahocorasick-python:AC自动机python的实现,并进行了优化。 主要修复了 查询不准确的问题](https://download.csdn.net/download/weixin_42122986/18825869)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Python实现多模匹配——AC自动机](https://blog.csdn.net/zichen_ziqi/article/details/104246446)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值