3172: [Tjoi2013]单词
Time Limit: 10 Sec Memory Limit: 512 MBSubmit: 4223 Solved: 2051
[ Submit][ Status][ Discuss]
Description
某人读论文,一篇论文是由许多单词组成。但他发现一个单词会在论文中出现很多次,现在想知道每个单词分别在论文中出现多少次。
Input
第一个一个整数N,表示有多少个单词,接下来N行每行一个单词。每个单词由小写字母组成,N<=200,单词长度不超过10^6
Output
输出N个整数,第i行的数字表示第i个单词在文章中出现了多少次。
Sample Input
3
a
aa
aaa
Sample Output
6
3
1
一个很简单的想法是将每个单词的所有后缀全部加入字典树,中间经过的节点cnt[]值全部+1,然后再对每个单词进行一次查询,但是复杂度过高,所以要优化
考虑对所有单词建出AC自动机,然后将每个节点x和fail[x]之间连一条边,这样可以形成一个树:fail树
对于fail树,有几个很好的性质:
①:每个节点都是一个字符串的前缀,并且每个字符串的前缀一定在fail树上有一个节点
②:fail树的大小等于AC自动机的大小,fail树的根就是AC自动机的根
③:每个节点的父亲都是这个节点的最长后缀,每个节点的所有祖先是这个节点的所有后缀
字符串x在字符串y中出现多少次就是看y的所有后缀中,有多少后缀的前缀是x
这样的话就可以优化了,只要将每个单词加入字典树,中间经过的节点cnt[]值全部+1,然后建立AC自动机求出fail树,从根节点开始DFS,对于树上每个节点,将它和它子树中所有的cnt[]加起来就是该节点单词出现总次数
参考:http://www.cnblogs.com/zzqsblog/p/6227545.html
#include<stdio.h>
#include<queue>
#include<vector>
using namespace std;
queue<int> q;
vector<int> G[1000005];
int cnt, tre[1000005][27], bel[205], fail[1000005], sum[1000005];
char str[1000005];
void Insert(int x)
{
int i, p = 1;
for(i=1;str[i]!='\0';i++)
{
if(tre[p][str[i]-'a'+1]==0)
tre[p][str[i]-'a'+1] = ++cnt;
p = tre[p][str[i]-'a'+1];
sum[p]++;
}
bel[x] = p;
}
void ACmach()
{
int i, now, p;
fail[1] = 0;
q.push(1);
while(q.empty()==0)
{
now = q.front();
q.pop();
for(i=1;i<=26;i++)
{
if(tre[now][i]==0)
continue;
p = fail[now];
while(tre[p][i]==0)
p = fail[p];
fail[tre[now][i]] = tre[p][i];
G[tre[p][i]].push_back(tre[now][i]);
q.push(tre[now][i]);
}
}
}
void Sech(int u)
{
int i, v;
for(i=0;i<G[u].size();i++)
{
v = G[u][i];
Sech(v);
sum[u] += sum[v];
}
}
int main(void)
{
int n, i;
scanf("%d", &n);
cnt = 1;
for(i=1;i<=26;i++)
tre[0][i] = 1;
for(i=1;i<=n;i++)
{
scanf("%s", str+1);
Insert(i);
}
ACmach();
Sech(1);
for(i=1;i<=n;i++)
printf("%d\n", sum[bel[i]]);
return 0;
}