AC自动机小结

  在模式匹配算法中,如果模式串比较少,用KMP算法。对于多模板匹配,因为每一次查找一个模板,都要遍历整个长文本,故KMP不适用。用KMP+字典树的AC自动机,把所有的模板建立失配状态转移图。AC自动机适用于长文本的多模板匹配问题。  

#include<bits/stdc++.h>
using namespace std;

const int maxnode=11000;//最长模板串的长度
const int sigma_size=26;

struct AC_Automata
{
    int ch[maxnode][sigma_size];//ch[i][j]:字典树第i层第j个节点的编号
    int val[maxnode];//每个字符串的结尾结点都有一个非0的val,插入单词的编号
    int f[maxnode];//fail函数
    int last[maxnode];//last[i]=j表j节点表示的单词是i节点单词的后缀,且j节点是单词节点。节点i沿着失配指针往回走,遇到的下一个单词节点的编号
    int sz;
    //初始化0号根节点的相关信息
    void init()
    {
        sz=1;
        memset(ch[0],0,sizeof(ch[0]));
        val[0]=0;
    }
    //insert负责构造ch与val数组,字典树构造
    //插入字符串,v必须非0表示一个单词节点
    void Insert(char *s,int v)
    {
        int n=strlen(s),u=0;
        for(int i=0; i<n; i++)
        {
            int id=s[i]-'a';
            if(ch[u][id]==0)
            {
                ch[u][id]=sz;
                memset(ch[sz],0,sizeof(ch[sz]));
                val[sz++]=0;
            }
            u=ch[u][id];
        }
        val[u]=v;
    }
    //getFail函数负责构造f和last数组
    void getFail()
    {
        queue<int> q;
        last[0]=f[0]=0;
        for(int i=0; i<sigma_size; i++)//初始化
        {
            int u=ch[0][i];
            if(u)
            {
                f[u]=last[u]=0;
                q.push(u);
            }
        }
        //每搜一层,求当前节点的失配指针
        //r:当前拿出队列的节点,u:当前节点的子节点,v:当前节点的失配节点
        while(!q.empty())//按BFS顺序计算fail
        {
            int r=q.front(); q.pop();
            for(int i=0; i<sigma_size; i++)
            {
                int u=ch[r][i];
                if(u==0)continue;
                q.push(u);

                int v=f[r];
                while(v && ch[v][i]==0) v=f[v];//出现失配
                f[u]=ch[v][i];//子节点的失配指针
                last[u]=val[f[u]]?f[u]:last[f[u]];//失配节点是否为单词节点,如果是,记录;如果不是,继续沿着失配边找。
            }
        }
    }
    //递归打印与结点i后缀相同的前缀节点编号
    //进入此函数前需保证val[i]>0
    void print(int i)
    {
        if(i)
        {
            printf("%d\n",i);//输出长串包含的模板串编号
            print(last[i]);//沿着失配边找是否存在其他模板串包含在长串中
        }
    }
    //在s中找出 出现了哪几个模板单词
    void Find(char *s)
    {
        int n=strlen(s),j=0;
        for(int i=0; i<n; i++)
        {
            int id=s[i]-'a';
            while(j && ch[j][id]==0) j=f[j];
            j=ch[j][id];
            if(val[j]) print(j);//j为单词节点
            else if(last[j]) print(last[j]);//j不为单词节点,但沿着失配边找到的节点为单词节点,即以当前匹配的后缀为前缀的单词。
        }
    }

};
AC_Automata ac;

 

 

改进,可以在失配过程中将不存在的边也连上

if(!u) continue;

改为

if(!u){ch[r][c]=ch[f[r]][c];continue;}

则Find函数中的

while(j && ch[j][id]==0) j=f[j];

可以删除。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值