HDU - 2896 - 病毒侵袭（AC自动机）

最新推荐文章于 2020-07-27 19:43:52 发布

_xiaoyuer

最新推荐文章于 2020-07-27 19:43:52 发布

阅读量258

点赞数

本文链接：https://blog.csdn.net/j6635788/article/details/52128581

版权

AC自动机专栏收录该内容

5 篇文章 0 订阅

订阅专栏

病毒侵袭

Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)
Total Submission(s): 21426 Accepted Submission(s): 5251

Problem Description

当太阳的光辉逐渐被月亮遮蔽，世界失去了光明，大地迎来最黑暗的时刻。。。。在这样的时刻，人们却异常兴奋——我们能在有生之年看到500年一遇的世界奇观，那是多么幸福的事儿啊~~
但网路上总有那么些网站，开始借着民众的好奇心，打着介绍日食的旗号，大肆传播病毒。小t不幸成为受害者之一。小t如此生气，他决定要把世界上所有带病毒的网站都找出来。当然，谁都知道这是不可能的。小t却执意要完成这不能的任务，他说：“子子孙孙无穷匮也！”（愚公后继有人了）。
万事开头难，小t收集了好多病毒的特征码，又收集了一批诡异网站的源码，他想知道这些网站中哪些是有病毒的，又是带了怎样的病毒呢？顺便还想知道他到底收集了多少带病毒的网站。这时候他却不知道何从下手了。所以想请大家帮帮忙。小t又是个急性子哦，所以解决问题越快越好哦~~

Input

第一行，一个整数N（1<=N<=500），表示病毒特征码的个数。
接下来N行，每行表示一个病毒特征码，特征码字符串长度在20—200之间。
每个病毒都有一个编号，依此为1—N。
不同编号的病毒特征码不会相同。
在这之后一行，有一个整数M（1<=M<=1000），表示网站数。
接下来M行，每行表示一个网站源码，源码字符串长度在7000—10000之间。
每个网站都有一个编号，依此为1—M。
以上字符串中字符都是ASCII码可见字符（不包括回车）。

Output

依次按如下格式输出按网站编号从小到大输出，带病毒的网站编号和包含病毒编号，每行一个含毒网站信息。
web 网站编号: 病毒编号病毒编号 …
冒号后有一个空格，病毒编号按从小到大排列，两个病毒编号之间用一个空格隔开，如果一个网站包含病毒，病毒数不会超过3个。
最后一行输出统计信息，如下格式
total: 带病毒网站数
冒号后有一个空格。

Sample Input

  
  
   
   3
aaa
bbb
ccc
2
aaabbbccc
bbaacc

Sample Output

  
  
   
   web 1: 1 2 3
total: 1

中文题目不写题意。

做了一早上一直wa，吃完饭后拿壕的代码对拍，终于知道自己错在哪里。

其实AC自动机的裸题确实是足够裸的，模板改改就好了，只是我已经连续两次栽在同一个地方，这就比较让人有挫败感。上次载完后觉得不可能再栽了，还特地先改了那个地方，结果没想到又栽了。哎，果然同一个地方跌倒两次这种事情。。。

嗯，其实就是s[i] - 'a'这里，每次要改的不过是a变A，A变其他这种事情，可是如果我真的当他是裸题就不仔细看题的话，这种不是坑的坑，恐怕还是要栽很多次。

记又一次犯蠢的经历，引以为戒。

#include <stdio.h>
#include <math.h>
#include <string.h>
#include <algorithm>
#include <queue>
#include <stack>
#include <iostream>
#include <assert.h>
#define INF 0x3f3f3f3f
using namespace std;
const int M = 1e4 + 5;
const int SIZE = 100;
const int N = 1e5 + 10;
const int MAXN = 205;

char str[MAXN];
int tricnt;
int ch[N][SIZE];
int fails[N];
int ed[N];
bool vis[N];
char txt[M];
int ans[1005][105];

int newnode()
{
  memset(ch[tricnt], 0, sizeof(ch[tricnt]));
  fails[tricnt] = 0;
  ed[tricnt] = 0;
  vis[tricnt] = false;
  return tricnt++;
}

void init()
{
  tricnt = 0;
  memset(ans, 0, sizeof(ans));
  newnode();
}

void trinsert(char* s, int id)
{
  int u = 0;
  int len = strlen(s);
  int v;
  for (int i = 0; i < len; i++) {
    v = s[i] - 32;  //是统计所有可见字符，却看样例想当然觉得是小写字母，所以一开始SIZE开的30也是不够大的
    if (!ch[u][v])
      ch[u][v] = newnode();
    u = ch[u][v];
  }
  ed[u] = id;
}

void getfail()
{
  queue<int> q;
  for (int i = 0; i < 100; i++)
    if (ch[0][i])
      q.push(ch[0][i]);

  while (!q.empty()) {
    int r = q.front();
    q.pop();
    for (int i = 0; i < 100; i++) {
      int v = ch[r][i];
      if (v) {
        q.push(v);
        int u = fails[r];
        while (u && !ch[u][i])
          u = fails[u];
        fails[v] = ch[u][i];
      }
    }
  }
}

int finds(char* s, int id)
{
  int u = 0;
  int p, v;
  int cntans = 1;
  for (int i = 0; s[i]; i++) {
    v = s[i] - 32;
    while (u && !ch[u][v]) u = fails[u];
    u = ch[u][v];
    p = u;
    while (p && !vis[p]) {
      if (ed[p]) {
        ans[id][cntans++] = ed[p];
        vis[p] = true;
      }
      p = fails[p];
    }
  }
  ans[id][0] = cntans;
}

int main()
{
  int n;
  while (cin >> n) {
    getchar();
    init();
    for (int i = 1; i <= n; i++) {
      scanf("%s", str);
      trinsert(str, i);
    }
    int m;
    scanf("%d", &m);
    getchar();
    getfail();
    for (int i = 1; i<= m; i++) {
      scanf("%s", txt);
      memset(vis, false, sizeof(vis)); //每次都要初始化，因为对于每篇文章扫一遍，前一篇会对后一篇造成影响
      finds(txt, i);
    }
    int sum = 0;
    for (int i = 1; i <= m; i++) {
      if (ans[i][0] > 1) {
        sum++;
        printf("web %d:", i);
        sort(ans[i] + 1, ans[i] + ans[i][0]);
        for (int j = 1; j < ans[i][0]; j++) {
          printf(" %d", ans[i][j]);
        }
        printf("\n");
      }
    }
    printf("total: %d\n", sum);
  }
  return 0;
}