题目大意
给出
n
n
个字符串,要求给这个字符串编号1~n,使其代价和最小。
对第
i
i
个字符串编号为,代价的计算方式如下:
1.如果存在字符串
j
j
满足是
i
i
的后缀,且,那么
i
i
的代价为
2.如果字符串
i
i
没有对应的后缀,那么代价为
3.如果存在字符串
j
j
满足是
i
i
的后缀,而且没有,那么选编号最大的
vj
v
j
,代价为
vi−vj
v
i
−
v
j
数据保证任意两个字符串不相等,100%数据满足 n≤105,∑|S|≤510000 n ≤ 10 5 , ∑ | S | ≤ 510000
解题报告
如果只有2,3,可以证明出最大代价和不超过 n∗(n+1)2≤n2 n ∗ ( n + 1 ) 2 ≤ n 2 ,所以如果 i i 是的后缀,那么 vi<vj v i < v j
后缀满足传递性,而且由于数据保证任意两个字符串不相等,所以不存在互相为后缀,所以……可以建一棵树,如果Si是Sj的长度最长的出现过的后缀,那么 i−>j i − > j 建一条边,没有后缀的可以设一个 root=0 r o o t = 0 ,这个 root r o o t 就是这棵树的根。
此时问题变成了给有根树除根之外的每个点标号,满足每个点的标号互不相同且在1到N之间,使得每个点的标号大于其父节点的标号,且所有点的标号减去其父节点的标号之和最小。
在网上查了一下,这道题是一个经典的贪心问题。发现如果一个节点的子树编号在一个连续的区间内时最优。那么贪心策略为DFS有根树,每一次选择子树最小的子节点递归下去,如果不存在子节点则返回。然后问题就剩下建有根树,如果把字符串倒过来,这题就成了前缀,然后Trie求祖先就很简单了……
示例代码
#include<cstdio>
#include<cstring>
#include<algorithm>
#define maxn 200005
#define maxe 400005
using namespace std;
int n,m,len,a[maxn],trie[510005][26],tot,son[maxe],nxt[maxe],lnk[maxn],num[maxn];
bool vs[510005];
char s[510005];
long long ans;
void trie_Insert(){
int now=0,L=strlen(s+1);
for (int i=L;i;i--){
if (!trie[now][s[i]-'a']) trie[now][s[i]-'a']=++len;
now=trie[now][s[i]-'a'];
}
vs[now]=1;
}
void _add(int x,int y){son[++tot]=y; nxt[tot]=lnk[x]; lnk[x]=tot;}
void _dfsa(int x,int fa){
if (vs[x]) {_add(fa,++m); fa=m;}
for (int i=0;i<26;i++) if (trie[x][i]) _dfsa(trie[x][i],fa);
}
void _dfsb(int x){
num[x]=1; int k=0;
for (int j=lnk[x];j;j=nxt[j]) {_dfsb(son[j]); num[x]+=num[son[j]];}
for (int j=lnk[x];j;j=nxt[j]) a[++k]=num[son[j]];
sort(a+1,a+k+1);
for (int i=1;i<=k;i++) {ans+=a[i-1]+1; a[i]+=a[i-1];}
}
int main()
{
freopen("recite.in","r",stdin);
freopen("recite.out","w",stdout);
scanf("%d",&n); len=m=ans=0;
memset(trie,0,sizeof(trie));
for (int i=1;i<=n;i++){scanf("%s",s+1); trie_Insert();}
_dfsa(0,0); _dfsb(0);
printf("%lld",ans);
return 0;
}