题意:给你一个长度为n的字符串,问你有几个不同的子串.
如 ABABA:
len=1 : A,B
len=2 : AB,BA
len=3 : ABA,BAB
len=4 : ABAB,BABA
len=5 : ABABA
共9个。
思路:所有的子串都是后缀的前缀,即所有子串的数目就是所有后缀的长度和。(跟枚举子串起点终点一样)、
总个数减去重复的即为答案,计算重复的可以,每个后缀重复的有height[i]个串.
也可以这样理解,每个后缀的贡献为:n-i+height[rank[i]]。n-i是其所有的子串的数目,其中由于它和排名前一位的字符串有height[rank[i]]个字符的公共前缀,因此其中有height[rank[i]]个子串是和前面重复的,因次新贡献的子串的数目就等于n-i+height[rank[i]]。
#include<iostream>
#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;
typedef long long ll;
const int maxn = 1e5+5;
int t1[maxn], t2[maxn], c[maxn];
int ra[maxn], height[maxn];
int sa[maxn];
char str[maxn];
bool cmp(int *r, int a, int b, int l)
{
return r[a]==r[b]&&r[a+l]==r[b+l];
}
void da(char str[], int sa[], int ra[], int height[], int n, int m)
{
n++;
int i, j, p, *x = t1, *y = t2;
for(i = 0; i < m; i++) c[i] = 0;
for(i = 0; i < n; i++) c[x[i]=str[i]]++;
for(i = 1; i < m; i++) c[i] += c[i-1];
for(i = n-1; i >= 0; i--) sa[--c[x[i]]] = i;
for(j = 1; j <= n; j<<=1)
{
p = 0;
for(i = n-j; i < n; i++) y[p++] = i;
for(i = 0; i < n; i++) if(sa[i] >= j) y[p++] = sa[i]-j;
for(i = 0; i < m; i++) c[i] = 0;
for(i = 0; i < n; i++) c[x[y[i]]]++;
for(i = 1; i < m; i++) c[i] += c[i-1];
for(i = n-1; i >= 0; i--) sa[--c[x[y[i]]]] = y[i];
swap(x, y);
p = 1; x[sa[0]] = 0;
for(i = 1; i < n; i++)
x[sa[i]] = cmp(y, sa[i-1], sa[i], j) ? p-1 : p++;
if(p >= n) break;
m = p;
}
int k = 0;
n--;
for(i = 0; i <= n; i++) ra[sa[i]] = i;
for(i = 0; i < n; i++)
{
if(k) k--;
j = sa[ra[i]-1];
while(str[i+k]==str[j+k]) k++;
height[ra[i]] = k;
}
}
int main(void)
{
int t;
cin >> t;
while(t--)
{
scanf(" %s", str);
ll len = strlen(str);
da(str, sa, ra, height, len, 127);
ll ans = (1+len)*len/2;
for(int i = 2; i <= len; i++)
ans -= height[i];
printf("%lld\n", ans);
}
return 0;
}