题目链接:
题目描述:
给定N个字符串S1,S2…SN,接下来进行M次询问,每次询问给定一个字符串T,求S1~SN中有多少个字符串是T的前缀。输入字符串的总长度不超过10^6,仅包含小写字母。
题解:
这道题用字典树(Trie)做
Trie的模板是将字符串结尾记录在每个节点,但这题节点中记录的是z字符串的个数,其实就是把每个节点原来的bool变量改成int
下面是插入函数:
void insert(string str){
int len=str.size(),p=1;
for(int i=0;i<len;i++){
int ch=str[i]-'a';
if(trie[p][ch]==0) trie[p][ch]=++tot;
p=trie[p][ch];
}
END[p]++;
}
我们用数组trie[][]
模拟一棵树,令指针P
先指向这棵树的根结点,然后依次扫描字符串str
中的每个字符ch
,tot
可以理解为字符的编号。
如果前面没有出现过重复的字符,即trie[p][ch]==0
,就把这个字符加入树中,新建立一个节点,并把指针指向这个节点;如果这个字符已经存在,那么只要把指针指向这个位置就行了,这样最后指针P
指向的就是字符串的末尾,通过这个操作,可以保证字符串不重复。
前面for循环内的内容和Trie模板是一样的,如果只要标记结尾(不用计数),就只要把最后一行改成END[p]=true
就行了。
下面是查找函数:
int search(string str){
int len=str.size(),p=1,ans=0;
for(int i=0;i<len;i++){
p=trie[p][str[i]-'a'];
if(p==0){
return ans;
}
ans+=END[p];
}
return ans;
}
我们之前已经记录了以每个字符结尾的字符串的个数,所以只要把以文本串(需要被查找的字符串)每一位为后缀的字符串个数相加就可以了。如果P=0,那么就说明这个字符串不匹配,所以直接返回前面的ans之和就行了。
完整代码:
#include <bits/stdc++.h>
using namespace std;
const int size=1e6+10;
int m,n;
int trie[size][26],tot=1,END[size]; //根据题意,只有小写字母,所以开26就够了
string str;
void insert(string str){ //插入一个字符串
int len=str.size(),p=1; //P为指针,指向下一个节点
for(int i=0;i<len;i++){
int ch=str[i]-'a';
if(trie[p][ch]==0) trie[p][ch]=++tot; //类似链表,每个节点都指向下一个节点
p=trie[p][ch];
}
END[p]++; //最后一个P就是字符串末位,以这个字符为末位的字符串个数加一
}
int search(string str){ //计算有几个前缀
int len=str.size(),p=1,ans=0;
for(int i=0;i<len;i++){
p=trie[p][str[i]-'a'];
if(p==0){ //如果该字符不存在,则字符串结束
return ans;
}
ans+=END[p];
}
return ans;
}
int main(){
cin>>n>>m;
for(int i=1;i<=n;i++){
cin>>str;
insert(str);
}
for(int i=1;i<=m;i++){
cin>>str;
cout<<search(str)<<endl;
}
return 0;
}
写作时间:
2019-7-29