洛谷P3966 [TJOI2013]单词 AC自动机

题目描述

小张最近在忙毕设,所以一直在读论文。一篇论文是由许多单词组成但小张发现一个单词会在论文中出现很多次,他想知道每个单词分别在论文中出现了多少次。

输入输出格式

输入格式:

第一行一个整数N,表示有N个单词。接下来N行每行一个单词,每个单词都由小写字母(a-z)组成。(N≤200)

输出格式:

输出N个整数,第i行的数表示第i个单词在文章中出现了多少次。

输入输出样例

输入样例#1: 

3
a
aa
aaa

输出样例#1: 

6
3
1

说明

数据范围

30%的数据, 单词总长度不超过10^3

100%的数据,单词总长度不超过10^6

题解:这一题太坑了,注意点有3个。

  1. 有重复出现的单词,所以要去重。
  2. 最后一个会TLE,所以重复的单词不要放到匹配字符串里面。
  3. 我是用string数组,为了构成一个匹配串,每输入一个单词s,str += 'z'+1,    str += s;每个单词前面用一个‘z'+1,不仅起到分割的作用,还可以编号。跑AC自动机,每次跑到一个单词末尾,加上相应的个数
#include <bits/stdc++.h>
using namespace std;
int const N = 200 + 10;  //单词的个数
int const M = 200 * 1000000 + 10;
struct Node{
	Node *next[26];
	Node *fail;
	int num;
	Node(){
		memset(next,NULL,sizeof(next));
		fail = NULL;
		num = 0;     //0表示这个模式串未出现,出现了用相应得编号代替;
	}
}*p[M];
Node *root;
map<string,int>mp;
int n;
int val[N],mp2[N],cnt[N],cnt2[N];
void Insert(string s,int number){
	Node *now = root;		
	for(int i=0;i<s.length();i++){
		int to = s[i] - 'a';			
		if(now->next[to] == NULL)	
			now->next[to] = new Node();
		now = now->next[to];
	}		
	now->num = number;
}
void Get_Fail(){
	int head = 0,tail = 0;
	root->fail = NULL;
	p[head++] = root;
	while(head != tail){
		Node *q = p[tail++];
		Node *tmp;
		for(int i=0;i<26;i++){
			if(q->next[i] == NULL)	continue;
			if(q == root)	q->next[i]->fail = root;
			else{
				tmp = q->fail;
				while(tmp){
					if(tmp->next[i]){
						q->next[i]->fail = tmp->next[i];
						break;
					}
					tmp = tmp->fail;
				}
				if(tmp == NULL)	q->next[i]->fail = root;
			}
			p[head++] = q->next[i];
		}
	}
}
void Match(string s){
	Node *tmp,*p = root;	
	int k = 0;
	for(int i=0;i<s.length();i++){
		int to = s[i] - 'a';
		if(to == 'z'-'a'+1){
			p = root;
			k++;   //表示第几个单词
			continue;
		}
		while(p && p->next[to] == NULL)	p = p->fail;
		if(p)	p = p->next[to];
		else p = root;
		tmp = p;
		while(tmp != root){
			if(tmp->num)	val[tmp->num] += cnt[k];
			tmp = tmp->fail;
		}
	}
}
void Print(){
	for(int i=1;i<=n;i++){
		cout<<val[mp2[i]]<<endl;
	}
}
int main(){
	ios::sync_with_stdio(false);
	while(cin>>n&&n){
		mp.clear();
		memset(cnt,0,sizeof(cnt));
		memset(cnt2,0,sizeof(cnt2));
		memset(val,0,sizeof(val));   
		root = new Node();
		string str;
		int count = 0;
		for(int i=1;i<=n;i++){
			string s;
			cin>>s;
			if(!mp[s]){  //
				Insert(s,++count);
				str += 'z'+1,	str += s;   //为了防止TLE,每个单词只出现一次
				mp[s] = mp2[i] = count;   //mp2[i]表示每个单词的编号
				cnt[count]++;//每个字符串的个数
			}else	cnt[mp2[i]=mp[s]]++;  //记录这个单词出现了几次
		}
		Get_Fail();
		Match(str);
		Print();
	}
	return 0;
}

/*每个模式串给它一个编号*/

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python AC自动机是一个用于字符串匹配的算法,它可以高效地在一段文本中查找多个预定义的模式。它的实现可以使用多种库,其中包括ac自动机python和ahocorasick-python。 ac自动机python是一个对标准的ac自动机算法进行了完善和优化的实现,适用于主流的Python发行版,包括Python2和Python3。它提供了更准确的结果,并且可以通过pip进行安装,具体的安装方法可以参考官方文档或者使用pip install命令进行安装。 ahocorasick-python是另一个实现AC自动机的库,它也可以用于Python2和Python3。你可以通过官方网站或者GitHub源码获取更多关于该库的信息和安装指南。 对于AC自动机的使用,一个常见的例子是在一段包含m个字符的文章中查找n个单词出现的次数。要了解AC自动机,需要有关于模式树(字典树)Trie和KMP模式匹配算法的基础知识。AC自动机的算法包括三个步骤:构造一棵Trie树,构造失败指针和模式匹配过程。在构造好AC自动机后,可以使用它来快速地在文本中查找预定义的模式,并统计它们的出现次数。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [ahocorasick-python:AC自动机python的实现,并进行了优化。 主要修复了 查询不准确的问题](https://download.csdn.net/download/weixin_42122986/18825869)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Python实现多模匹配——AC自动机](https://blog.csdn.net/zichen_ziqi/article/details/104246446)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值