hdu 2222 AC自动机入门详解

题意:

给n(1e4)个单词,每个单词长度小于等于50。

然后给一篇文章,长度最长为(1e6)。

求每个单词在文章中出现的总次数。


解析:

多校做到了ac自动机的题,来学习一下。


这题有个坑点就是单词会重复。

比如

/*

1
3
she
she
she
shesheshe

*/

这组数据,输出应该是3。

这涉及到模板的修改问题。

以下见代码中那句话。

详解在代码后面,kuang神的模板。


代码:

#pragma comment(linker, "/STACK:1677721600")
#include <map>
#include <set>
#include <cmath>
#include <queue>
#include <stack>
#include <vector>
#include <cstdio>
#include <cstdlib>
#include <cstring>
#include <climits>
#include <cassert>
#include <iostream>
#include <algorithm>
#define pb push_back
#define mp make_pair
#define LL long long
#define lson lo,mi,rt<<1
#define rson mi+1,hi,rt<<1|1
#define Min(a,b) ((a)<(b)?(a):(b))
#define Max(a,b) ((a)>(b)?(a):(b))
#define mem0(a) memset(a,0,sizeof(a))
#define mem1(a) memset(a,-1,sizeof(a))
#define mem(a,b) memset(a,b,sizeof(a))
#define FIN freopen("in.txt", "r", stdin)
#define FOUT freopen("out.txt", "w", stdout)

using namespace std;
const int mod = 1e9 + 7;
const double eps = 1e-8;
const double ee = exp(1.0);
const int inf = 0x3f3f3f3f;
const int maxn = 50 * 1e5 + 10;
const double pi = acos(-1.0);
const LL iinf = 0x3f3f3f3f3f3f3f3f;

const int dictSize = 26;

struct Trie
{
    int next[maxn][dictSize];   //next[i][j]保存节点i的那个编号为j的节点(小写字母按字典序编号为0-(a),1-(b),2-(c),...)
    int fail[maxn];             //后缀链接 fail[j]表示节点j沿着失配指针往回走时 遇到的下一个单词节点编号
    int end[maxn];              //保存当前结点结尾的字串个数
    int rt;                     //根
    int nodeNum;                //节点个数

    void init()
    {
        nodeNum = 0;
        rt = newNode();
    }

    int newNode()
    {
        for (int i = 0; i < dictSize; i++)
            next[nodeNum][i] = -1;
        end[nodeNum++] = 0;
        return nodeNum - 1;
    }

    //将字符串str加入Trie前缀树中
    void insert(string str)
    {
        int len = str.length();
        int now = rt;
        for (int i = 0; i < len; i++)
        {
            if (next[now][str[i] - 'a'] == -1)
            {
                next[now][str[i] - 'a'] = newNode();
            }
            now = next[now][str[i] - 'a'];
        }
        end[now]++;
    }

    //建立后缀链接
    void build()
    {
        queue<int> q;
        fail[rt] = rt;
        for (int i = 0; i < dictSize; i++)
        {
            if (next[rt][i] == -1)
            {
                next[rt][i] = rt;
            }
            else
            {
                fail[next[rt][i]] = rt;
                q.push(next[rt][i]);
            }
        }
        while (!q.empty())
        {
            int now = q.front();
            q.pop();
            for (int i = 0; i < dictSize; i++)
            {
                if (next[now][i] == -1)
                {
                    next[now][i] = next[fail[now]][i];
                }
                else
                {
                    fail[next[now][i]] = next[fail[now]][i];
                    q.push(next[now][i]);
                }
            }
        }
    }

    //询问子串们在串str中出现的次数
    int query(string str)
    {
        int len = str.length();
        int now = rt;
        int res = 0;
        for (int i = 0; i < len; i++)
        {
            now = next[now][str[i] - 'a'];
            int temp = now;
            while (temp != rt)
            {
                res += end[temp];
                end[temp] = 0; ///没这句话就错辣( ▼-▼ )
                temp = fail[temp];
            }
        }
        return res;
    }

    void debug()
    {
        for (int i = 0; i < nodeNum; i++)
        {
            printf("id = %3d,fail = %3d,end = %3d,chi = [",i,fail[i],end[i]);
            for(int j = 0;j < 26;j++)
                printf("%2d",next[i][j]);
            printf("]\n");
        }
    }
} ac;

string str;

int main()
{
#ifdef LOCAL
    FIN;
#endif // LOCAL
    int ncase;
    scanf("%d", &ncase);
    while (ncase--)
    {
        int n;
        scanf("%d", &n);
        ac.init();
        for (int i = 0; i < n; i++)
        {
            cin >> str;
            ac.insert(str);
        }
        ac.build();
        cin >> str;
        printf("%d\n", ac.query(str));
    }
    return 0;
}

详解:

就此题的样例来说明AC自动机的使用过程:

输入的单词为:

{ she,he,say,shr,her }


AC自动机的第一步,先初始化整棵前缀树,前缀树的树根无明确意义:

next[ i ] [ j ]保存节点 i 的“编号”为 j 的节点 (小写字母按字典序编号为0-(a),1-(b),2-(c),...)。

end[ j ]保存以当前结点为结尾的字串个数。

void init()
{
    nodeNum = 0;
    rt = newNode();
}

int newNode()
{
    for (int i = 0; i < dictSize; i++)
        next[nodeNum][i] = -1;
    end[nodeNum++] = 0;
    return nodeNum - 1;
}

第二步,按照每一个单词的输入建立一棵前缀树,每次遇到单词结尾 end++:

void insert(string str)
{
    int len = str.length();
    int now = rt;
    for (int i = 0; i < len; i++)
    {
        if (next[now][str[i] - 'a'] == -1)
        {
            next[now][str[i] - 'a'] = newNode();
        }
        now = next[now][str[i] - 'a'];
    }
    end[now]++;
}
此时,前缀树的形状(感觉我很喜欢画树啊哈哈哈):

第三步,所有单词输入完毕之后,就开始建立后缀链接:

void build()
{
    queue<int> q;
    fail[rt] = rt;
    for (int i = 0; i < dictSize; i++)
    {
        if (next[rt][i] == -1)
        {
            next[rt][i] = rt;
        }
        else
        {
            fail[next[rt][i]] = rt;
            q.push(next[rt][i]);
        }
    }
    while (!q.empty())
    {
        int now = q.front();
        q.pop();
        for (int i = 0; i < dictSize; i++)
        {
            if (next[now][i] == -1)
            {
                next[now][i] = next[fail[now]][i];
            }
            else
            {
                fail[next[now][i]] = next[fail[now]][i];
                q.push(next[now][i]);
            }
        }
    }
}

后缀链接:fail[j]表示节点j沿着失配指针往回走时,遇到的下一个单词节点编号。

在图中是这样表示的:

(图中箭头代表了后缀链接)


最后一步,就可以开始询问了。

本题由于输入的单词是有重复的,所以在询问中加了一句话,通常情况下直接就能用了。

询问的过程是从根节点开始,用next指针来往前跳就行了,这里并没有用到fail数组- -。

int query(string str)
{
    int len = str.length();
    int now = rt;
    int res = 0;
    for (int i = 0; i < len; i++)
    {
        now = next[now][str[i] - 'a'];
        int temp = now;
        while (temp != rt)
        {
            res += end[temp];
     //       end[temp] = 0;
            temp = fail[temp];
        }
    }
    return res;
}

本题加这句话是因为单词重复,并且只有一篇文章,所以访问过后随手改成0就好了。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值