AC自动机

最新推荐文章于 2020-03-21 17:02:14 发布

Venishel

最新推荐文章于 2020-03-21 17:02:14 发布

阅读量1.2k

点赞数 2

分类专栏：字符串——AC自动机文章标签：数据结构算法压缩 hash AC自动机

本文链接：https://blog.csdn.net/qq_37321281/article/details/55668919

版权

字符串——AC自动机专栏收录该内容

5 篇文章 0 订阅

订阅专栏

AC自动机

AC自动机，刚学习ac自动机时，还真的以为能自动ac，ac自动机就是一种匹配多个字符串的高效的方法，如果要靠kmp来解决问题，那就要考k个n＋m，这个太浪费时间，写写暴力还行，不能拿全分，但是想一想，他浪费时间浪费在每个字符串都要单个的求next数组，单个的与文章匹配，我们想一想，如果我们把这些单个化为一个整体，那就节省时间了，把字符串结合在一起的方法有很多，比如什么hash，trie树，而ac自动机就是建立在trie树上面的，而原来KMP的next数组变成了树的fail指针，流程其实挺简单的，由于细节在trie树和kmp已分析过，所以大概分析一下，建树还是一如既往。要加一个set_fail函数来查找每个节点的fail，这个过程要说一下，就是fail一直跳，知道不为空的节点或根，在把fail指向节点或根，这样做原因是什么？想想并查集，它的一个优化就是直接接一根线到祖先（路径压缩），可能有异曲同工之妙啊，接了fail的先以后就要做做后一步了，把文章放到自动机上跑一边，就是和trie找前缀过程有点像，总之，ac自动机作用相当打，在kmp上更上一层楼。下面配上代码。



#include<stdio.h>
#include<string.h>
#include<malloc.h>
#include<queue>
using namespace std;
char str[1000000+100];
struct node{
    int count;
    struct node *next[26];
    struct node *fail;
    void init(){
        for(int i = 0; i < 26; i++) next[i] = NULL;
        count = 0;
        fail = NULL;
    }
} *root;
void insert(){
    int len, k;
    node *p = root;
    len = strlen(str);
    for(k = 0; k < len; k++){
        int pos = str[k] - 'a';
        if( p->next[pos] == NULL ){
            p->next[pos] = new node;
            p->next[pos]->init();
            p = p->next[pos];
        }
        else
            p = p->next[pos];
    }
    p->count++;
}
void getfail()
{
    int i;
       node *p = root, *son, *temp;
       queue <struct node *> que;
       que.push(p); 
       while( !que.empty() ){
           temp = que.front();
           que.pop();
           for(i = 0; i < 26; i++){
               son = temp->next[i];
               if(son != NULL){
                   if(temp == root) {son->fail = root;}
                   else{
                       p = temp->fail;
                       while( p ) {
                           if(p->next[i]){
                               son->fail=p->next[i];
                               break;
                           }
                           p=p->fail;
                       }
                       if(!p)  son->fail=root;
                   }
                   que.push(son);
               }
           }
       }
}
void query()
{
    int len, i, cnt = 0;
    len = strlen(str);
    node *p, *temp;
    p = root;
    for( i = 0; i < len; i++)
    {
        int pos = str[i]-'a';
        while( !p->next[pos]&&p!=root )  p = p->fail;      
        p = p->next[pos];
        if( !p ) p=root;
        temp = p;
        while( temp!=root )
        {
            if(temp->count >= 0) 
            {
                cnt += temp->count;
                temp->count = -1;  
            }
            else break; 
            temp = temp->fail; 
        }
    }
    printf("%d\n",cnt);
}
int main()
{
    int cas,n;
    scanf("%d",&cas);
    while(cas--)
    {
        root=new node;
        root->init();
        root->fail=NULL;
        scanf("%d",&n);
        int i;
        getchar();
        for(i=0;i<n;i++)
        {
            gets(str);
            insert();
        }
        getfail();
        gets(str);
        query();
    }
    return 0;
}

Venishel

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
AC自动机

1.字符串总结。通过了这几天的字符串的学习，我所学习的字符串的内容大致有，前缀树，哈希，kmp算法，ac自动机等内容。 Hash就是一个散列表，通过压缩映射存关键信息，需要掌握的就是处理字符串的算法以及处理冲突，在这当中，还要运用到前向星，以及数据结构的知识，在处理字符串时还要涉及一些数学方面的东西， Hash表建立的时间复杂度是O（n），而查找的时间复杂度是o（1
复制链接

扫一扫