题目描述:
给定长度为
n
n
n 的由小写字母组成的字符串
S
S
S,令
T
T
T 为
S
S
S 本质不同的非空子序列形成的集合,
Q
Q
Q 次询问,每次回答
T
T
T 中字典序从小到大第
k
k
k 的子序列的后
p
p
p 个字符。
如果
p
p
p大于子序列长度,直接输出子序列,如果没有这样的子序列,输出
−
1
-1
−1
1
≤
n
≤
3
∗
1
0
5
,
1
≤
Q
≤
1
0
5
,
1
≤
k
≤
1
0
18
,
∑
p
≤
1
0
6
,
p
≥
1
1\le n\le3*10^5,1\le Q\le10^5,1\le k\le10^{18},\sum p\le10^6,p\ge1
1≤n≤3∗105,1≤Q≤105,1≤k≤1018,∑p≤106,p≥1
题目分析:
首先一个基础的想法是序列自动机,记
n
x
t
[
i
]
[
c
]
nxt[i][c]
nxt[i][c]为第
i
i
i个位置后面第一个
c
c
c字符的位置,并求出
f
[
i
]
f[i]
f[i]表示该位置往后能形成的串个数,有
f
[
i
]
=
1
+
∑
c
f
[
n
x
t
[
i
]
[
c
]
]
f[i]=1+\sum_c f[nxt[i][c]]
f[i]=1+∑cf[nxt[i][c]]
显然从
0
0
0开始往后匹配,一条路径一一对应一个本质不同的子序列。总的子序列个数为
f
[
0
]
f[0]
f[0]。(字符串下标从
1
1
1开始)
考虑朴素的 d f s dfs dfs做法:从 i i i点往后,如果 k = 1 k=1 k=1则找到;否则字典序有小到大枚举儿子,如果 k > f [ s o n ] k>f[son] k>f[son],那么 k − = f [ s o n ] k-=f[son] k−=f[son],否则递归到 s o n son son中解决。这样做一次的复杂度是 O ( n ∑ ) O(n\sum) O(n∑)的,只能做 Q = 1 Q=1 Q=1的部分分。( ∑ \sum ∑是字符集大小)
对于 k ≤ 1 e 6 k\le1e6 k≤1e6的部分分,仿照上面的做法dfs求出前 1 e 6 1e6 1e6个子序列即可。
如果不需要求后 p p p个字符而只需要求长度(某个与具体路径无关的量)的话,可以在 f f f的部分用可持久化Treap合并儿子实现然后在 f [ 0 ] f[0] f[0]的Treap中二分第 k k k小的位置。
以下是正解:
对于 f [ i ] = 1 + ∑ f [ n x t [ i ] [ c ] ] f[i]=1+\sum f[nxt[i][c]] f[i]=1+∑f[nxt[i][c]],如果 f [ i ] f[i] f[i]超过了 1 0 18 10^{18} 1018,则选择第一次加到 1 0 18 10^{18} 1018的边作为“重边”;否则选择 f [ n x t [ i ] [ c ] ] f[nxt[i][c]] f[nxt[i][c]]最大的转移边作为“重边”,建出一个类似于重链剖分的东西。
预处理一些前缀和后(用倍增更好实现),对于一个询问
k
k
k,我们可以二分出它在什么位置离开“重链”,然后暴力跳轻边,注意到因为
f
[
i
]
=
1
+
∑
f
[
n
x
t
[
i
]
[
c
]
]
f[i]=1+\sum f[nxt[i][c]]
f[i]=1+∑f[nxt[i][c]],而重边的
f
f
f又是儿子中最大的那个,所以跳轻边一定会使得
f
f
f变为原来的一半以下(除了第一次可能从
f
>
=
1
0
18
f>=10^{18}
f>=1018走到
f
<
1
0
18
f<10^{18}
f<1018),所以跳轻边的次数是
O
(
log
k
)
O(\log k)
O(logk)的,总复杂度
O
(
Q
∗
log
k
∗
(
log
n
+
∑
)
)
O(Q*\log k*(\log n+\sum))
O(Q∗logk∗(logn+∑))。
二分时有两种情况:
- 跳到重链上某一个点后往上走(走比重儿子字典序小的点),这样前面经过的串的数量就是下图蓝色的部分:
这种情况中可以继续往后走的条件是前缀和 < k <k <k - 跳到重链上某一个点后往下走(走比重儿子字典序大的点),这样前面经过的串的数量就是下图蓝色的部分:
这种情况继续往后走的条件是上面部分的和加上后缀和 ≥ k \ge k ≥k
不难发现如果最终答案是第一种情况,满足第一个条件时必定满足第二个条件,第二种情况同理。所以代码中将两种情况用&&连接。
PS:实际实现时只需要对于 f [ i ] > 1 0 18 f[i]>10^{18} f[i]>1018同样可以选择最大的转移边作为重边,实际上并无太大差别(对复杂度无影响),可能会使复杂度变高的情况只可能是跳轻边时调到了非第一个 1 0 18 10^{18} 1018的儿子,但是只需要在儿子相等优先取字典序小的就可以避免这种情况。
Code:
#include<bits/stdc++.h>
#define maxn 300005
#define LL long long
using namespace std;
const LL inf = (LL)(1e18)+1;
int n,m,ch[maxn][26],len,tp;
char S[maxn],a[maxn];
LL f[maxn],k;
struct node{
int p;LL s;
node operator + (const node &b)const{return (node){b.p,min(s+b.s,inf)};}
}nxt[maxn][19];
void print(int x,int i){
if(tp==len) return;
if(!i) {S[++tp]=a[nxt[x][0].p];return;}
print(nxt[x][i-1].p,i-1),print(x,i-1);
}
void solve(int x){
if(k==1) return;
bool vis[20]={0}; int pos[20];
for(int i=18;i>=0;i--) if(k>nxt[x][i].s&&k-nxt[x][i].s<=f[nxt[x][i].p]) vis[i]=1,pos[i]=x,k-=nxt[x][i].s,x=nxt[x][i].p;
if(k>1){
k--;
for(int i=0,y;i<26;i++)
if(k>f[y=ch[x][i]]) k-=f[y];
else {solve(y); if(tp<len) S[++tp]='a'+i; break;}
}
for(int i=0;i<=18;i++) if(vis[i]) print(pos[i],i);
}
int main()
{
scanf("%s%d",a+1,&m),n=strlen(a+1);
for(int i=0;i<26;i++) ch[n][i]=n+1;
f[n]=1; nxt[n][0]=(node){n+1,1},nxt[n+1][0]=(node){n+1,0};
for(int i=n-1;i>=0;i--){
memcpy(ch[i],ch[i+1],sizeof ch[i]),ch[i][a[i+1]-'a']=i+1;
f[i]=1; for(int j=0;j<26;j++) if((f[i]+=f[ch[i][j]])>=inf) {f[i]=inf;break;}
int p=0; for(int j=0;j<26;j++) if(f[ch[i][j]]>f[ch[i][p]]) p=j;
LL s=1; for(int j=0;j<p;j++) if((s+=f[ch[i][j]])>=inf) {s=inf;break;};
nxt[i][0]=(node){ch[i][p],s};
}
for(int j=1;j<=18;j++) for(int i=0;i<=n+1;i++) nxt[i][j]=nxt[i][j-1]+nxt[nxt[i][j-1].p][j-1];
while(m--){
scanf("%lld%d",&k,&len),k++;
if(k>f[0]) {puts("-1");continue;}
tp=0,solve(0);
for(int i=tp;i>=1;i--) putchar(S[i]); putchar('\n');
}
}