title: KMP和Trie
date: 2019-05-30 20:36:57
tags: 数据结构
一、字符串匹配算法 KMP
首先,我们看暴力怎么去做字符串匹配:
每次一旦 t 和 s 不匹配,t 串后移1位又重头开始匹配工作 是
O
(
n
2
)
O(n^2)
O(n2) 的
char s[maxn],t[maxn];
for(int i=1;i<=n;i++)
{
bool flag=true;
for(int j=1;j<=m;j++)
{
if(s[i]!=t[j])
{
flag=false;
break;
}
}
}
绿色相等的部分越长,说明需要移动的距离就越短
由此,对于 t串 我们引入next[i]
数组:表示 以i为终点的后缀 和 从1开始的前缀 相等且最长
即:如果有next[i]=j
,则有t[1~j]=t[i-j+1~i]
例题:
给出两个串s为原串 t为配对串,求配对串t在原串s中出现的所有位置的起始下标
这里推荐做KMP时,数组下标从1开始比较好
时间复杂度是O(n)的
就匹配过程来看,每次i循环中,j最多只会+1,i会循环m次,所以j最多只会+m次,
每次while循环j会减少,但最多只会-m次,所以总时间复杂度为O(2m)
#include <iostream>
#include <algorithm>
#include <cstring>
#include <cstdio>
#include <cstdlib>
const int maxn=1e5+5;
using namespace std;
char s[maxn],t[maxn];
int nex[maxn];
int main()
{
int n,m;//n是t的长度,m是s串长度 n<=m
cin>>n>>t+1>>m>>s+1;
for(int i=2,j=0;i<=n;i++)//这里从2开始是因为i=1如果不匹配,就直接回到原点0开始了
{
while(j&&t[i]!=t[j+1])
j=nex[j];//如果不匹配就往后退一步
if(t[i]==t[j+1])
j++;
nex[i]=j;
}
//kmp匹配过程
for(int i=1,j=0;i<=m;i++)
{
while(j&&s[i]!=t[j+1])
j=nex[j];
//结束之后将会有两种状态,判断一下是哪一种
if(s[i]==t[j+1])
j++;
if(j==n)//匹配成功
{
printf("%d ",i-n);//本来应该是i-n+1,但是因为题目是从0开始的,我们这里就要-1
j=nex[j];//j已经匹配完成,不能再退了,但我们要重新开始一个匹配
}
}
return 0;
}
匹配成功之后的 j=nex[j]
二、字典树 Trie
用来快速高效地存储和查找字符串集合的数据结构
例题:
#include <iostream>
#include <algorithm>
#include <cstring>
#include <cstdio>
#include <cstdlib>
const int maxn=1e5+5;
using namespace std;
int son[maxn][26],cnt[maxn],idx;//son存的是每个结点的所有儿子,cnt标记单词个数
//下标为0的结点,既是根结点,也是空结点
void insert(string str)
{
int p=0;//指向parent,根结点是0
for(int i=0;str[i];i++)
{
int c=str[i]-'a';//把字符转换成数字作为下标存储
if(!son[p][c])//son中初始都为0,如果p没有c这个儿子,就创建出来
son[p][c]=++idx;
//然后走到下一个结点
p=son[p][c];
}
cnt[p]++;//单词结尾做标记
}
int query(string str)
{
int p=0;//从根结点开始
for(int i=0;str[i];i++)
{
int c=str[i]-'a';
if(!son[p][c])//说明当前不存在c这个儿子
return 0;//没有这个单词
p=son[p][c];//有这个单词,就走过去
}
return cnt[p];//返回以p为结尾的单词数量即可
}
int main()
{
int n;
cin>>n;
while(n--)
{
char c;
string s;
cin>>c>>s;
if(c=='I')
insert(s);
else
{
printf("%d\n",query(s));
}
}
return 0;
}
我们注意到,凡是用Trie做的题目,都会限制字母种数,不会太多,不然需要很大空间