20200507 zr T1【序列自动机上重链剖分+二分(倍增) 求字典序第k小子序列的后p位】

最新推荐文章于 2020-08-05 22:37:43 发布

Master.Yi

最新推荐文章于 2020-08-05 22:37:43 发布

阅读量508

点赞数

分类专栏：字符串

本文链接：https://blog.csdn.net/C20181220_xiang_m_y/article/details/105981299

版权

字符串专栏收录该内容

22 篇文章 0 订阅

订阅专栏

题目描述：

给定长度为 $n$ 的由小写字母组成的字符串 $S$ ，令 $T$ 为 $S$ 本质不同的非空子序列形成的集合， $Q$ 次询问，每次回答 $T$ 中字典序从小到大第 $k$ 的子序列的后 $p$ 个字符。
如果 $p$ 大于子序列长度，直接输出子序列，如果没有这样的子序列，输出 $- 1$
$1\le n\le3*10^5,1\le Q\le10^5,1\le k\le10^{18},\sum p\le10^6，p\ge1$

题目分析：

首先一个基础的想法是序列自动机，记 $n x t [i] [c]$ 为第 $i$ 个位置后面第一个 $c$ 字符的位置，并求出 $f [i]$ 表示该位置往后能形成的串个数，有 $f[i]=1+\sum_c f[nxt[i][c]]$
显然从 $0$ 开始往后匹配，一条路径一一对应一个本质不同的子序列。总的子序列个数为 $f [0]$ 。（字符串下标从 $1$ 开始）

考虑朴素的 $d f s$ 做法：从 $i$ 点往后，如果 $k = 1$ 则找到；否则字典序有小到大枚举儿子，如果 $k > f [s o n]$ ，那么 $k - = f [s o n]$ ，否则递归到 $s o n$ 中解决。这样做一次的复杂度是 $O(n\sum)$ 的，只能做 $Q = 1$ 的部分分。( $\sum$ 是字符集大小)

对于 $k\le1e6$ 的部分分，仿照上面的做法dfs求出前 $1 e 6$ 个子序列即可。

如果不需要求后 $p$ 个字符而只需要求长度(某个与具体路径无关的量)的话，可以在 $f$ 的部分用可持久化Treap合并儿子实现然后在 $f [0]$ 的Treap中二分第 $k$ 小的位置。

以下是正解：

对于 $f[i]=1+\sum f[nxt[i][c]]$ ，如果 $f [i]$ 超过了 $10^{18}$ ，则选择第一次加到 $10^{18}$ 的边作为“重边”；否则选择 $f [n x t [i] [c]]$ 最大的转移边作为“重边”，建出一个类似于重链剖分的东西。

预处理一些前缀和后（用倍增更好实现），对于一个询问 $k$ ，我们可以二分出它在什么位置离开“重链”，然后暴力跳轻边，注意到因为 $f[i]=1+\sum f[nxt[i][c]]$ ，而重边的 $f$ 又是儿子中最大的那个，所以跳轻边一定会使得 $f$ 变为原来的一半以下（除了第一次可能从 $f>=10^{18}$ 走到 $f<10^{18}$ ），所以跳轻边的次数是 $O(\log k)$ 的，总复杂度 $O(Q*\log k*(\log n+\sum))$ 。
二分时有两种情况：

跳到重链上某一个点后往上走（走比重儿子字典序小的点），这样前面经过的串的数量就是下图蓝色的部分：

这种情况中可以继续往后走的条件是前缀和 $< k$
跳到重链上某一个点后往下走（走比重儿子字典序大的点），这样前面经过的串的数量就是下图蓝色的部分：

这种情况继续往后走的条件是上面部分的和加上后缀和 $\ge k$
不难发现如果最终答案是第一种情况，满足第一个条件时必定满足第二个条件，第二种情况同理。所以代码中将两种情况用&&连接。

PS：实际实现时只需要对于 $f[i]>10^{18}$ 同样可以选择最大的转移边作为重边，实际上并无太大差别（对复杂度无影响），可能会使复杂度变高的情况只可能是跳轻边时调到了非第一个 $10^{18}$ 的儿子，但是只需要在儿子相等优先取字典序小的就可以避免这种情况。

Code：

#include<bits/stdc++.h>
#define maxn 300005
#define LL long long
using namespace std;
const LL inf = (LL)(1e18)+1;
int n,m,ch[maxn][26],len,tp;
char S[maxn],a[maxn];
LL f[maxn],k;
struct node{
	int p;LL s;
	node operator + (const node &b)const{return (node){b.p,min(s+b.s,inf)};}
}nxt[maxn][19];
void print(int x,int i){
	if(tp==len) return;
	if(!i) {S[++tp]=a[nxt[x][0].p];return;}
	print(nxt[x][i-1].p,i-1),print(x,i-1);
}
void solve(int x){
	if(k==1) return;
	bool vis[20]={0}; int pos[20];
	for(int i=18;i>=0;i--) if(k>nxt[x][i].s&&k-nxt[x][i].s<=f[nxt[x][i].p]) vis[i]=1,pos[i]=x,k-=nxt[x][i].s,x=nxt[x][i].p;
	if(k>1){
		k--;
		for(int i=0,y;i<26;i++)
			if(k>f[y=ch[x][i]]) k-=f[y];
			else {solve(y); if(tp<len) S[++tp]='a'+i; break;}
	}
	for(int i=0;i<=18;i++) if(vis[i]) print(pos[i],i);
}
int main()
{
	scanf("%s%d",a+1,&m),n=strlen(a+1);
	for(int i=0;i<26;i++) ch[n][i]=n+1;
	f[n]=1; nxt[n][0]=(node){n+1,1},nxt[n+1][0]=(node){n+1,0};
	for(int i=n-1;i>=0;i--){
		memcpy(ch[i],ch[i+1],sizeof ch[i]),ch[i][a[i+1]-'a']=i+1;
		f[i]=1; for(int j=0;j<26;j++) if((f[i]+=f[ch[i][j]])>=inf) {f[i]=inf;break;}
		int p=0; for(int j=0;j<26;j++) if(f[ch[i][j]]>f[ch[i][p]]) p=j;
		LL s=1; for(int j=0;j<p;j++) if((s+=f[ch[i][j]])>=inf) {s=inf;break;};
		nxt[i][0]=(node){ch[i][p],s};
	}
	for(int j=1;j<=18;j++) for(int i=0;i<=n+1;i++) nxt[i][j]=nxt[i][j-1]+nxt[nxt[i][j-1].p][j-1];
	while(m--){
		scanf("%lld%d",&k,&len),k++;
		if(k>f[0]) {puts("-1");continue;}
		tp=0,solve(0);
		for(int i=tp;i>=1;i--) putchar(S[i]); putchar('\n');
	}
}

Master.Yi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
20200507 zr T1【序列自动机上重链剖分+二分(倍增) 求字典序第k小子序列的后p位】

题目描述：给定长度为 nnn 的由小写字母组成的字符串 SSS，令 TTT 为 SSS 本质不同的非空子序列形成的集合，QQQ 次询问，每次回答 TTT 中字典序从小到大第 kkk 的子序列的后 ppp 个字符。如果ppp大于子序列长度，直接输出子序列，如果没有这样的子序列，输出−1-1−11≤n≤3∗105,1≤Q≤105,1≤k≤1018,∑p≤106，p≥11\le n\le3*10^...
复制链接

扫一扫