题意:
给n(1e4)个单词,每个单词长度小于等于50。
然后给一篇文章,长度最长为(1e6)。
求每个单词在文章中出现的总次数。
解析:
多校做到了ac自动机的题,来学习一下。
这题有个坑点就是单词会重复。
比如
/*
1
3
she
she
she
shesheshe
*/
这组数据,输出应该是3。
这涉及到模板的修改问题。
以下见代码中那句话。
详解在代码后面,kuang神的模板。
代码:
#pragma comment(linker, "/STACK:1677721600")
#include <map>
#include <set>
#include <cmath>
#include <queue>
#include <stack>
#include <vector>
#include <cstdio>
#include <cstdlib>
#include <cstring>
#include <climits>
#include <cassert>
#include <iostream>
#include <algorithm>
#define pb push_back
#define mp make_pair
#define LL long long
#define lson lo,mi,rt<<1
#define rson mi+1,hi,rt<<1|1
#define Min(a,b) ((a)<(b)?(a):(b))
#define Max(a,b) ((a)>(b)?(a):(b))
#define mem0(a) memset(a,0,sizeof(a))
#define mem1(a) memset(a,-1,sizeof(a))
#define mem(a,b) memset(a,b,sizeof(a))
#define FIN freopen("in.txt", "r", stdin)
#define FOUT freopen("out.txt", "w", stdout)
using namespace std;
const int mod = 1e9 + 7;
const double eps = 1e-8;
const double ee = exp(1.0);
const int inf = 0x3f3f3f3f;
const int maxn = 50 * 1e5 + 10;
const double pi = acos(-1.0);
const LL iinf = 0x3f3f3f3f3f3f3f3f;
const int dictSize = 26;
struct Trie
{
int next[maxn][dictSize]; //next[i][j]保存节点i的那个编号为j的节点(小写字母按字典序编号为0-(a),1-(b),2-(c),...)
int fail[maxn]; //后缀链接 fail[j]表示节点j沿着失配指针往回走时 遇到的下一个单词节点编号
int end[maxn]; //保存当前结点结尾的字串个数
int rt; //根
int nodeNum; //节点个数
void init()
{
nodeNum = 0;
rt = newNode();
}
int newNode()
{
for (int i = 0; i < dictSize; i++)
next[nodeNum][i] = -1;
end[nodeNum++] = 0;
return nodeNum - 1;
}
//将字符串str加入Trie前缀树中
void insert(string str)
{
int len = str.length();
int now = rt;
for (int i = 0; i < len; i++)
{
if (next[now][str[i] - 'a'] == -1)
{
next[now][str[i] - 'a'] = newNode();
}
now = next[now][str[i] - 'a'];
}
end[now]++;
}
//建立后缀链接
void build()
{
queue<int> q;
fail[rt] = rt;
for (int i = 0; i < dictSize; i++)
{
if (next[rt][i] == -1)
{
next[rt][i] = rt;
}
else
{
fail[next[rt][i]] = rt;
q.push(next[rt][i]);
}
}
while (!q.empty())
{
int now = q.front();
q.pop();
for (int i = 0; i < dictSize; i++)
{
if (next[now][i] == -1)
{
next[now][i] = next[fail[now]][i];
}
else
{
fail[next[now][i]] = next[fail[now]][i];
q.push(next[now][i]);
}
}
}
}
//询问子串们在串str中出现的次数
int query(string str)
{
int len = str.length();
int now = rt;
int res = 0;
for (int i = 0; i < len; i++)
{
now = next[now][str[i] - 'a'];
int temp = now;
while (temp != rt)
{
res += end[temp];
end[temp] = 0; ///没这句话就错辣( ▼-▼ )
temp = fail[temp];
}
}
return res;
}
void debug()
{
for (int i = 0; i < nodeNum; i++)
{
printf("id = %3d,fail = %3d,end = %3d,chi = [",i,fail[i],end[i]);
for(int j = 0;j < 26;j++)
printf("%2d",next[i][j]);
printf("]\n");
}
}
} ac;
string str;
int main()
{
#ifdef LOCAL
FIN;
#endif // LOCAL
int ncase;
scanf("%d", &ncase);
while (ncase--)
{
int n;
scanf("%d", &n);
ac.init();
for (int i = 0; i < n; i++)
{
cin >> str;
ac.insert(str);
}
ac.build();
cin >> str;
printf("%d\n", ac.query(str));
}
return 0;
}
详解:
就此题的样例来说明AC自动机的使用过程:
输入的单词为:
{ she,he,say,shr,her }
AC自动机的第一步,先初始化整棵前缀树,前缀树的树根无明确意义:
next[ i ] [ j ]保存节点 i 的“编号”为 j 的节点 (小写字母按字典序编号为0-(a),1-(b),2-(c),...)。
end[ j ]保存以当前结点为结尾的字串个数。
void init()
{
nodeNum = 0;
rt = newNode();
}
int newNode()
{
for (int i = 0; i < dictSize; i++)
next[nodeNum][i] = -1;
end[nodeNum++] = 0;
return nodeNum - 1;
}
第二步,按照每一个单词的输入建立一棵前缀树,每次遇到单词结尾 end++:
void insert(string str)
{
int len = str.length();
int now = rt;
for (int i = 0; i < len; i++)
{
if (next[now][str[i] - 'a'] == -1)
{
next[now][str[i] - 'a'] = newNode();
}
now = next[now][str[i] - 'a'];
}
end[now]++;
}
此时,前缀树的形状(感觉我很喜欢画树啊哈哈哈):
第三步,所有单词输入完毕之后,就开始建立后缀链接:
void build()
{
queue<int> q;
fail[rt] = rt;
for (int i = 0; i < dictSize; i++)
{
if (next[rt][i] == -1)
{
next[rt][i] = rt;
}
else
{
fail[next[rt][i]] = rt;
q.push(next[rt][i]);
}
}
while (!q.empty())
{
int now = q.front();
q.pop();
for (int i = 0; i < dictSize; i++)
{
if (next[now][i] == -1)
{
next[now][i] = next[fail[now]][i];
}
else
{
fail[next[now][i]] = next[fail[now]][i];
q.push(next[now][i]);
}
}
}
}
后缀链接:fail[j]表示节点j沿着失配指针往回走时,遇到的下一个单词节点编号。
在图中是这样表示的:
(图中箭头代表了后缀链接)
最后一步,就可以开始询问了。
本题由于输入的单词是有重复的,所以在询问中加了一句话,通常情况下直接就能用了。
询问的过程是从根节点开始,用next指针来往前跳就行了,这里并没有用到fail数组- -。
int query(string str)
{
int len = str.length();
int now = rt;
int res = 0;
for (int i = 0; i < len; i++)
{
now = next[now][str[i] - 'a'];
int temp = now;
while (temp != rt)
{
res += end[temp];
// end[temp] = 0;
temp = fail[temp];
}
}
return res;
}
本题加这句话是因为单词重复,并且只有一篇文章,所以访问过后随手改成0就好了。