【算法笔记】字符串

失配树fail树

给定一个字符串,m组询问给定p,q,要求s[1~p]和s[1~q]的最长公共前缀。

首先要讲一个概念:Border:对于字符串S,用|S|表示其长度。那么S串的一个Border就是S的某个前缀(S串本身不算),这个前缀能和后缀匹配。举个例子,abcdabc的一个Border是abc。一个字符串的Border可能有多个。
性质1:对于任意一个字符串S,一个Border的长度就对应一个Border(比如abcdabc的长度为3的Border当然就只能是abc)。并且,假设S长度记为n,则S的所有Border的长度分别为:ne[n], ne[ne[n]], ne[ne[ne[n]]].......直到值为0的不算。并且这个序列的值从左往右递减(根据kmp的性质容易得出)
性质2:根据上面的结论,我们可以知道,对一个字符串S求解next数组之后,我们就知道了S所有前缀(包括S自身)的所有Border了。
Fail树是由所有 ne[i] -> i 的单向边构成的树
性质:结合前面Border的结论,在fail树上,一个结点x不断向上寻找祖先的过程,就是遍历字符串S[1,x]的所有Border长度的过程,又因为Border的长度和Border一一对应,所以fail树上就记录着字符串S所有前缀的Border。
ac代码:

#include<bits/stdc++.h>
using namespace std;
typedef long long ll;
const int N = 1e6+100, M = 1000010;
ll n;
char p[N];
ll fa[N][23],dep[M];
int lca(int x,int y) {
	if(dep[x]<dep[y])swap(x,y);
	for(int j=20; j>=0; j--)if(dep[fa[x][j]]>=dep[y])x=fa[x][j];
	if(x==y)return x;
	for(int j=20; j>=0; j--) {
		if(fa[x][j]!=fa[y][j]) {
			x=fa[x][j],y=fa[y][j];
		}
	}
	return fa[x][0];
}
int main() {
	ios::sync_with_stdio(false);
	cin.tie(0);cout.tie(0);
	cin >> p + 1;
	n=strlen(p+1);
	fa[0][0]=fa[1][0]=0;
	dep[0]=0,dep[1]=1;
	for (int i = 2, j = 0; i <= n; i ++ ) {
		while (j && p[i] != p[j + 1]) j = fa[j][0];
		if (p[i] == p[j + 1]) j ++ ;
		fa[i][0]=j;
		for (int k = 1; k <= 20; k++) fa[i][k] = fa[fa[i][k - 1]][k - 1];
		dep[i] = dep[fa[i][0]] + 1;
	}
	for(int i=1; i<=21; i++) {
		for(int j=1; j<=n; j++) {
			fa[j][i]=fa[fa[j][i-1]][i-1];
		}
	}
	int q;
	cin>>q;
	for(int i=1,x,y; i<=q; i++) {
		cin>>x>>y;
		int ans=lca(x,y);
		if(ans==x||ans==y)ans=fa[ans][0];
		cout<<ans<<'\n';
	}
	return 0;
}

manacher算法

给出一个只由小写英文字符 a,b,c,…y,z 组成的字符串 S ,求 S 中最长回文串的长度 。

字符串长度为 n。

#include<bits/stdc++.h>
using namespace std;
typedef long long ll;
const int N = 1e6+100, maxn = 1e7+1e6+1;
char s[maxn<<1],tmp[maxn<<1];
char a[maxn];
int hw[maxn];
int ans;
int n;
void manacher()
{
	int maxright=0,mid;
	for(int i=1;i<=n-1;i++)
	{
		if(i<maxright) hw[i]=min(hw[(mid<<1)-i],hw[mid]-(i-mid));
		else hw[i]=1;
		while(s[i+hw[i]]==s[i-hw[i]])hw[i]++;
		if(i+hw[i]>maxright)
		{
			maxright=hw[i]+i-1;
			mid=i;
		}
	}
    //其实是利用回文串的对称性进行求回文串。
}//借助已经求出来的hw[i]来求新的位置的hw 
void change()
{
	s[0]=s[1]='|';
	for(int i=1;i<=n;i++)
	{
		s[i*2]=a[i];
		s[i*2+1]='|';
	}
	n=n*2+2;
	s[n]=0; 
}//在字符串中插入'|'来进行更好的一个统计(便于统计长度为偶数的回文串) 
int main()
{
	scanf("%s",a+1);
	n=strlen(a+1);
	change();
	manacher();
	ans=1;
	for(int i=0;i<=n-1;i++)ans=max(ans,hw[i]);
	cout<<ans-1<<"\n";
}

int manchar(char *s){
	memset(hw,0,sizeof(hw));
	tmp[0]=tmp[1]='|';
	for(int i=1;i<=n;i++){
		tmp[i*2]=s[i];
		tmp[i*2+1]='|';
	} 
	int l=n*2+2;
	tmp[l]=0;
	int maxright=0,mid,ans=1;
	for(int i=1;i<=l-1;i++){
		if(i<maxright) hw[i]=min(hw[(mid<<1)-i],maxright-i);
		else hw[i]=1;
		while(tmp[i+hw[i]]==tmp[i-hw[i]]) hw[i]++;
		if(i+hw[i]>maxright){
			maxright=hw[i]+i-1;
			mid=i;
		}
	} 
	for(int i=0;i<l;i++)ans=max(ans,hw[i]);
	return ans-1;
}

ac自动机

首先构建一个字典树,加上fail指针

#include<bits/stdc++.h>
using namespace std;
typedef long long ll;
const int maxn=1e6+10;
char str[maxn*10],buf[maxn];
int ans[maxn];
int ct[maxn];
struct AC {
	int tot,pre[maxn][26],fail[maxn],pass[maxn];//pass用来表示这个点是单词的结尾,fail是失配指针,pre是儿子
	int L,R,que[maxn];//队列部分的操作
	vector<int>G[maxn];//x的失配指针到x是一条边,这样存一个图,从0结点就能一直跳了
	int newnode() {
		tot++;
		for(int i=0; i<26; i++)pre[tot][i]=0;
		fail[tot]=pass[tot]=ans[tot]=0;
		return tot;
	}//在给点赋值的同时进行初始化
	void init() {
		L=R=0;
		tot=-1;
		newnode();
	}
	void insert(int q) {
		int len=strlen(buf);
		int cur=0;
		for(int i=0; i<len; i++) {
			int t=buf[i]-'a';
			if(!pre[cur][t])pre[cur][t]=newnode();
			cur=pre[cur][t];
		}
		pass[cur]=1;
		ct[q]=cur;
	}
	void build() {
		for(int i=0; i<26; i++) {
			if(pre[0][i])que[R++]=pre[0][i];
		}
		while(L<R) {
			int cur=que[L++];
			G[fail[cur]].push_back(cur);
			for(int i=0; i<26; i++) {
				if(!pre[cur][i])pre[cur][i]=pre[fail[cur]][i];//建立fail指针
				else {
					que[R++]=pre[cur][i];
					fail[pre[cur][i]]=pre[fail[cur]][i];
				}
			}
		}
	}
	void dfs(int x) {
		for(int i=0; i<G[x].size(); i++) {
			int y=G[x][i];
			dfs(y);
			ans[x]+=ans[y];
		}
	}
	void find() {
		int len=strlen(str);
		int cur=0;
		for(int i=0; i<len; i++) {
			int t=str[i]-'a';
			cur=pre[cur][t];
			ans[cur]++;
		}

		dfs(0);
	}
} AC;
int main() {
	int n;
	scanf("%d",&n);
	AC.init();
	for(int i=1; i<=n; i++) {
		scanf("%s",buf);
		AC.insert(i);
	}
	AC.build();
	scanf("%s",str);
	AC.find();
	int Ans=0;
	for(int i=1; i<=n; i++) {
//		if(ans[ct[i]]!=0)Ans++;
			printf("%d\n",ans[ct[i]]);
	}
//	printf("%d",Ans);
	return 0;
}

/*

ABABABC

ABA

*/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
KMP算法是一种字符串匹配算法,用于在一个文本串S内查找一个模式串P的出现位置。它的时间复杂度为O(n+m),其中n为文本串的长度,m为模式串的长度。 KMP算法的核心思想是利用已知信息来避免不必要的字符比较。具体来说,它维护一个next数组,其中next[i]表示当第i个字符匹配失败时,下一次匹配应该从模式串的第next[i]个字符开始。 我们可以通过一个简单的例子来理解KMP算法的思想。假设文本串为S="ababababca",模式串为P="abababca",我们想要在S中查找P的出现位置。 首先,我们可以将P的每个前缀和后缀进行比较,得到next数组: | i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | --- | - | - | - | - | - | - | - | - | | P | a | b | a | b | a | b | c | a | | next| 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 | 接下来,我们从S的第一个字符开始匹配P。当S的第七个字符和P的第七个字符匹配失败时,我们可以利用next[6]=4,将P向右移动4个字符,使得P的第五个字符与S的第七个字符对齐。此时,我们可以发现P的前五个字符和S的前五个字符已经匹配成功了。因此,我们可以继续从S的第六个字符开始匹配P。 当S的第十个字符和P的第八个字符匹配失败时,我们可以利用next[7]=1,将P向右移动一个字符,使得P的第一个字符和S的第十个字符对齐。此时,我们可以发现P的前一个字符和S的第十个字符已经匹配成功了。因此,我们可以继续从S的第十一个字符开始匹配P。 最终,我们可以发现P出现在S的第二个位置。 下面是KMP算法C++代码实现:

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值