【ACWing】1285. 单词

记录算法题解

已于 2022-06-17 15:17:59 修改

阅读量282

点赞数 1

分类专栏： AC 数据结构文章标签：算法图论数据结构

于 2022-06-17 14:49:16 首次发布

本文链接：https://blog.csdn.net/qq_46105170/article/details/125332056

版权

AC自动机 Trie树论文统计单词频次字符串匹配

关键词由CSDN通过智能技术生成

AC 数据结构专栏收录该内容

199 篇文章 5 订阅

订阅专栏

题目地址：

https://www.acwing.com/problem/content/1287/

某人读论文，一篇论文是由许多单词组成的。但他发现一个单词会在论文中出现很多次，现在他想知道每个单词分别在论文中出现多少次。这里的论文可以理解为所有单词整体。

输入格式：
第一行一个整数 $N$ ，表示有多少个单词。接下来 $N$ 行每行一个单词，单词中只包含小写字母。

输出格式：
输出 $N$ 个整数，每个整数占一行，第 $i$ 行的数字表示第 $i$ 个单词在文章中出现了多少次。

数据范围：
$1 \leq N \leq 200$
所有单词长度的总和不超过 $10^6$ 。

思路是AC自动机。可以这样想，对于每个串，我们把其所有的非空前缀都插到Trie里，那么问某个串 $s$ 出现的次数，其实就是问 $s$ 是Trie中多少个串的后缀。考虑将这个Trie建成AC自动机，那么每个节点 $u$ 的 $n e [u]$ 表示的是存在于Trie里的 $u$ 串的最长后缀（也就是说Trie里可能存储了好几个 $u$ 的后缀，存的最长的那个就是 $n e [u]$ ），那么所有以 $s$ 为后缀的串 $u$ ，一定满足 $\exists k, ne^k[u]=s$ ，也就是说 $u$ 从其 $n e$ 指针跳若干次一定会跳到Trie中 $s$ 的终点。而由于 $n e$ 指针一定是从深度深的点向深度浅的点指的，所以整个Trie的节点连同其所有 $n e$ 指针（当然除了树根的）形成一个有向无环图（事实上整个Trie的节点连同其所有 $n e$ 的反向指针形成一棵树），所以其可以拓扑排序，只需要从深的节点向上递推就可以了。不需要特地拓扑排序，只需要将BFS的顺序反序遍历递推即可。设 $f [u]$ 是 $u$ 这个串的出现次数（这里的 $u$ 取遍Trie里插入的所有串，即原来所有串的所有前缀），则 $f [u]$ 其实就是沿着 $n e$ 指针，有多少个点可以走到它，那么可以按照最后一步来分类，有： $f[u]=1+|\{v:ne^k[v]=u,k\ge 1\}|=1+\sum_{ne[v]=u} f[v]$ 代码如下：

#include <iostream>
using namespace std;

const int N = 1e6 + 10;
int n;
int tr[N][26], f[N], idx;
int q[N], ne[N];
char s[N];
// id[i]指的是第i个串对应的是哪个Trie节点
int id[210];

void insert(int k) {
  int p = 0;
  for (int i = 0; s[i]; i++) {
    int j = s[i] - 'a';
    if (!tr[p][j]) tr[p][j] = ++idx;
    p = tr[p][j];
    // 要把这个串的所有前缀都插入到Trie里
    f[p]++;
  }
  id[k] = p;
}

// 建AC自动机
void build() {
  int hh = 0, tt = 0;
  for (int i = 0; i < 26; i++)
    if (tr[0][i]) q[tt++] = tr[0][i];

  while (hh < tt) {
    int t = q[hh++];
    for (int i = 0; i < 26; i++) {
      int &p = tr[t][i];
      if (p) ne[p] = tr[ne[t]][i], q[tt++] = p;
      else p = tr[ne[t]][i];
    }
  }
}

int main() {
  scanf("%d", &n);
  for (int i = 0; i < n; i++) {
    scanf("%s", s);
    insert(i);
  }
  build();
  // 按ne指针的拓扑序递推，即按深度从深到浅递推，即按BFS逆序递推。
  // BFS只遍历了除树根的点，一共点数是idx + 1，队列的最后一个元素下标是idx - 1
  for (int i = idx - 1; i >= 0; i--) f[ne[q[i]]] += f[q[i]];
  for (int i = 0; i < n; i++) printf("%d\n", f[id[i]]);
}