洛谷P3796 AC自动机模板【加强版】

题目描述

有N个由小写字母组成的模式串以及一个文本串T。每个模式串可能会在文本串中出现多次。你需要找出哪些模式串在文本串T中出现的次数最多。

输入输出格式
输入格式:

输入含多组数据。
每组数据的第一行为一个正整数NN,表示共有NN个模式串,1 ≤ N≤150。
接下去NN行,每行一个长度小于等于70的模式串。下一行是一个长度小于等于106
的文本串T。
输入结束标志为N=0。

输出格式:

对于每组数据,第一行输出模式串最多出现的次数,接下去若干行每行输出一个出现次数最多的模式串,按输入顺序排列。

输入输出样例

输入样例#1:
2
aba
bab
ababababac
6
beta
alpha
haha
delta
dede
tata
dedeltalphahahahototatalpha
0

输出样例#1:
4
aba
2
alpha
haha

对于一般的AC自动机模板这样的是统计文本串中有几个单词出现过,因此在模板中我们跳fail指针的时候会有这样一句话

for(int j = now; j && cd[j] != -1; j = f[j]){//cd[]表示改点为几个模式串的结尾
			ans += cd[j];
			cd[j] = -1;//防止重复判断累加答案
		}

这里我们为了避免一个单词出现多次导致我们答案加了一遍以上,因此我们在每次加过后都将其赋为-1了,但是本题中要我们统计出现最多的单词,所以不需要这句话。
我们可以一个统计模式串出现次数的数组在每次跳到单词结尾的时候,让其加一。
最后跳完比较一下,输出答案就行。

这道题的数据比较大,用cin应该会挂掉,但我挂掉主要不是因为这个(这说起来就是一把辛酸泪了),反正就是我写了字符串的快读,用scanf应该也行,不够在定义函数时里面的int(sting s)要改成int(char a[]);其他的一些操作也要改一下。
注意: 因为是多组数据,所以每次都要将有关的数组清空,用memset就行,别老想着自己手动for循环清,我被这个卡了一天T.T。 当然,菜是原罪。
代码

#include<bits/stdc++.h>

using namespace std;

const int MAXN = 1e6 * 4 + 5;

int trie[MAXN][28];
int cd[MAXN];
int fail[MAXN];
int n, cnt = 0;

inline string read(){
    char ch = getchar();
    string st1 = "";
    while(!(ch >= 'a' && ch <= 'z')) ch = getchar();
    while(ch >= 'a' && ch <= 'z') st1 += ch, ch = getchar();
    return st1;	
}

struct node{
    int num, pos;
}v[MAXN];

bool operator<(node a, node b){
    if(a.num != b.num)
        return a.num > b.num;
    else return a.pos < b.pos;
}

inline void clean(){
    memset(trie, 0, ++cnt * 104);
    for(int i = 1; i <= n; ++i) cd[i] = 0, v[i] = node{0, 0};
    for(int i = 1; i <= cnt; ++i) fail[i] = 0; 
}

void insert(string s, int a){
    int root = 0;
    for(int i = 0; i < s.size(); ++i){
        int nt = s[i] - 'a' + 1;
        if(!trie[root][nt]) trie[root][nt] = ++cnt;
        root = trie[root][nt];
    }
    cd[root] = a;	
}

void find_fail(){
    queue < int > q;
    for(int i = 1; i <= 26; ++i){
        int x = trie[0][i];
        if(x) fail[x] = 0, q.push(x);
    }
    while(!q.empty()){
        int x = q.front(); q.pop();
        for(int i = 1; i <= 26; ++i){
            if(trie[x][i]) {
                fail[trie[x][i]] = trie[fail[x]][i];
                q.push(trie[x][i]);
            }
            else trie[x][i] = trie[fail[x]][i];
        } 
    }
}

int q(string s){
    int now = 0, ans = 0;
    for(int i = 0; i < s.size(); ++i){
        now = trie[now][s[i] - 'a' + 1];
        for(int j = now; j && cd[j] != -1; j = fail[j]){
                v[cd[j]].num ++;
//			cout<<1<<endl;
        }
    }
    return ans;
}

string s[100010];

int main()
{
    while(12345679){
//		cout << '!' << endl;
        scanf("%d", &n);
        if(n == 0) break;
        clean();
        for(int i = 1; i <= n; ++i){
            s[i] = read();
            v[i].num = 0;
            v[i].pos = i;
            insert(s[i], i);
        }
        
        find_fail();
        s[0] = read();
        int ans = q(s[0]);
        sort(&v[1], &v[n + 1]);
        printf("%d\n", v[1].num);
        cout << s[v[1].pos] << endl;
        for(int i = 2; i <= n; ++i){
//			cout << 1 <<endl;
            if(v[i].num == v[i - 1].num)
                cout << s[v[i].pos] << endl;
            else break;
        }
    }
    return 0;		
}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
以下是AC自动机Java模板题U301874的代码实现: ```java import java.io.*; import java.util.*; public class Main { static final int MAXN = 100010, MAXM = 200010; static final int INF = 0x3f3f3f3f; static int n, m, cnt; static int[] trie = new int[MAXN * 30], idx = new int[MAXN * 30]; static int[] fail = new int[MAXN * 30], vis = new int[MAXN * 30]; static int[] head = new int[MAXN], nxt = new int[MAXM], ver = new int[MAXM], tot; static int[] deg = new int[MAXN]; static char[][] str = new char[MAXN][30]; static Map<Character, Integer> map = new HashMap<>(); static int add(char[] s) { int p = 0; for (int i = 0; s[i] != '\0'; i++) { char c = s[i]; if (!map.containsKey(c)) { map.put(c, ++cnt); } int u = map.get(c); if (trie[p] == 0) { trie[p] = ++tot; } p = trie[p]; idx[p] = u; } return p; } static void build() { Queue<Integer> q = new LinkedList<>(); for (int i = 1; i <= cnt; i++) { int u = map.get(str[i][0]); if (trie[0] == 0) { trie[0] = ++tot; } int p = trie[0]; idx[p] = 0; if (trie[p + u] == 0) { trie[p + u] = ++tot; } fail[p + u] = p; q.offer(p + u); } while (!q.isEmpty()) { int u = q.poll(); for (int i = head[idx[u]]; i != 0; i = nxt[i]) { int v = ver[i]; int p = fail[u], q = 0; while (p != 0 && trie[p + v] == 0) { p = fail[p]; } if (trie[p + v] != 0) { q = trie[p + v]; } fail[u + v] = q; q.offer(u + v); } } } static void addEdge(int u, int v) { ver[++tot] = v; nxt[tot] = head[u]; head[u] = tot; } static void topo() { Queue<Integer> q = new LinkedList<>(); for (int i = 1; i <= tot; i++) { if (deg[i] == 0) { q.offer(i); } } while (!q.isEmpty()) { int u = q.poll(); vis[u] = 1; for (int i = head[u]; i != 0; i = nxt[i]) { int v = ver[i]; deg[v]--; if (deg[v] == 0) { q.offer(v); } } } } public static void main(String[] args) { Scanner in = new Scanner(System.in); n = in.nextInt(); for (int i = 1; i <= n; i++) { String s = in.next(); str[i] = s.toCharArray(); add(str[i]); } m = in.nextInt(); for (int i = 1; i <= m; i++) { String s = in.next(); int len = s.length(); int p = 0; for (int j = 0; j < len; j++) { char c = s.charAt(j); if (!map.containsKey(c)) { break; } int u = map.get(c); if (trie[p + u] == 0) { break; } p = trie[p + u]; deg[p]++; addEdge(p, p + u); } } build(); topo(); for (int i = 1; i <= n; i++) { int p = 0; for (int j = 0; str[i][j] != '\0'; j++) { p = trie[p + map.get(str[i][j])]; if (vis[p] == 1) { System.out.println("YES"); break; } } if (vis[p] == 0) { System.out.println("NO"); } } } } ``` 该题解释:给定 $n$ 个模式和 $m$ 个文本,问每个模式是否存在于文本串中。其中,模式文本都只包含小写字母AC自动机是一种可以高效匹配多个模式的数据结构。该题需要使用AC自动机进行多模式匹配。 代码实现中,使用一个trie树存储所有模式每个节点记录了下一层的字符和对应的子节点编号。同时,使用一个map记录每个字符对应的编号,以便于在trie树中查找。 在trie树构建完成后,使用广度优先搜索构建fail指针。搜索过程中,对于每个节点 $u$,依次查找其父亲节点 $p$ 直到根节点,若 $p$ 的子节点 $v$ 与 $u$ 的子节点 $w$ 匹配,则令 $u$ 的fail指针指向 $p+v$ 节点。如果 $p+v$ 节点不存在,则继续向根节点搜索。 在fail指针构建完成后,对于每个文本,从根节点开始依次匹配每个字符,直到匹配完成或者无法匹配。如果最终匹配的节点已经被访问,则说明该模式存在于文本串中。 时间复杂度为 $O(\sum |P|+|T|)$,其中 $\sum |P|$ 表示所有模式的长度之和,$|T|$ 表示所有文本的长度之和。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BIGBIGPPT

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值