纪念自己的第一道后缀数组

zealotll

已于 2022-08-11 12:09:22 修改

阅读量514

点赞数

于 2011-04-25 18:28:00 首次发布

本文链接：https://blog.csdn.net/skywalker_sun/article/details/6362317

版权

大牛们请忽略这个角落~~

题目链接： 2774 -- Long Long Message long long message

为了ac这道题不容易啊，看了好几天各种中学生的论文（%>_<%人家中学就这么牛啦！！咆哮一下！！），终于对后缀数组这个神秘的东西有点理解。

说说自己对它的感性认识~~

一般说到的后缀数组不是像图论那些算法那样得出一个具体问题的解，

它得出的是一个很神奇的数组sa[],保存的是一个字符串的所有后缀的排序结果，另sa[i]=p, i表示这个后缀的排名，p表示这个后缀在原串里面的起始下标。

通常还要求一个数组rank[]，他是sa的逆，另rank[p]=i，i表示这个后缀的排名，p表示这个后缀在原串里面的起始下标

刚开始的时候很容易混淆这两个数组的意义，但强记着点就行

sa[] 通过排名得到位置， rank[]通过位置得到排名

求sa数组有两个算法

1.倍增法 O(N * log N) 代码比较好写，25行左右

2.DC3算法 O(N) 比上个好，但难写点,牛人可以40左右可以写出来

只求出这个数组解决不了什么问题(坑爹啊！！)。。

通常还要配合一个工具使用--LCP（最长公共前缀）

要知道LCP，就又要求一个数组height[]

height[i]为 suffix(sa[i-1]) 和 suffix(sa[i]) 的最长公共前缀

也就是排名相邻的两个后缀最长公共前缀

然后记住一个性质lcp(i,j) = min{height[k]} i <k<=j

接下来就将height转成rmq问题了

这道题是求两个字符串的公共子串，把两个字符串拼接起来，然后求排名相邻的最长子串就行

#include <iostream>
#include <cmath>
#include <algorithm> 
using namespace std;
const int  maxn =100010*2;
/*
字符要先转化为正整数
待排序的字符串放在r 数组中，从r[0]到r[n-1]，长度为n，且最大值小于m。
所有的r[i]都大于0,r[n]无意义算法中置0
函数结束后，结果放在sa 数组中(名次从1..n)，从sa[1]到sa[n]。s[0]无意义
*/
int cmp(int *r,int a,int b,int l)//
{
	return r[a]==r[b]&&r[a+l]==r[b+l];
}
int wa[maxn],wb[maxn],wv[maxn],ws1[maxn];
void da(int *r,int *sa,int n,int m)//
{
	r[n++]=0;
	int i,j,p,*x=wa,*y=wb,*t;
	for(i=0;i<m;i++)ws1[i]=0;
	for(i=0;i<n;i++)ws1[x[i]=r[i]]++;
	for(i=1;i<m;i++)ws1[i]+=ws1[i-1];
	for(i=n-1;i>=0;i--)sa[--ws1[x[i]]]=i;
	for(j=1,p=1;p<n;j*=2,m=p)
	{
		for(p=0,i=n-j;i<n;i++) y[p++]=i;
		for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
		for(i=0;i<n;i++) wv[i]=x[y[i]];
		for(i=0;i<m;i++) ws1[i]=0;
		for(i=0;i<n;i++) ws1[wv[i]]++;
		for(i=1;i<m;i++) ws1[i]+=ws1[i-1];
		for(i=n-1;i>=0;i--) sa[--ws1[wv[i]]]=y[i];
		for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)
		x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
	}
}
/*
height[2..n]:height[i]保存的是lcp(sa[i],sa[i-1])
rank[0..n-1]:rank[i]保存的是原串中suffix[i]的名次
*/
int rank[maxn],height[maxn];
void calheight(int *r,int *sa,int n)
{
	int i,j,k=0;
	for(i=1;i<=n;i++)rank[sa[i]]=i;
	for(i=0;i<n;height[rank[i++]]=k)
		for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);
}

int sa[maxn]; // sa数组,存的是s所有后缀排名后的起始位置 
int res[maxn]; // res是将字符串转化成int所存的数组 
char instr[maxn]; // 作为输入的 
int len; // 输入的原数据的长度 
int maxch; // 记录比字符集大的值 

/*==================================================*/ 
 | RMQ 离线算法 O(N*logN)+O(1) 
 | initrmq: arr[]置为待查询数组; initrmq(arr, n);
 | query 查询闭区间  [l,r]
/*==================================================*/ 
int stmin[maxn][20]; // rmq用到的st表 
void  initrmq (int *arr, int n) {
	int  i, j, m, c =(int)(log(( double )n)/ log( 2.0 ));
	for(i = 0; i < n; ++i) stmin[i][0] = arr[i];
	for (i = 1 ; i <= c; i ++) {
		for (j = 0 ; j < n; j ++) {
			m = j +( 1 <<(i - 1 ));//右半部分的起始值
			if (m < n){
				stmin[j][i]= min(stmin[j][i - 1 ],stmin[m][i - 1 ]);
			}
			else {//长度超出n的，就当是j起点的最后一个终点的rmq。实现这步能使查询为O(1).
				stmin[j][i]= stmin[j][i - 1 ];
			}
		}
	}
}

inline int  query( int  l, int  r) {
	int  len = r - l + 1 ;
	int  k =(int)( log(( double )len)/ log( 2.0 ));
	int  m = r -( 1 << k)+ 1 ;
	int  minval = min(stmin[l][k], stmin[m][k]);
	return  minval;
}

inline int lcp(int i,int j)//原串中suffix[i]与suffix[j]的lcp
{	//rmq解决
	//rank[i]<rank[j]
	//return min(height[ rank[i]+1 ]......height[ rank[j] ])
	if(i > j) swap(i,j);
	return query(i,j);;
}

void makeSRH(char *str, int *sa, int *height) {
	len = strlen(instr);
	// !!!用作模板时需要注意修改maxch的值 [0]无效,[1..26]小写字母[27]原文没出现字符 所以取28 
	maxch = 28; 
	for(int i = 0; i < len; ++i) {
		res[i] = str[i] - 'a' + 1;
	}
	
	da(res, sa, len, maxch);
	calheight(res, sa, len);
	initrmq(height, len + 1); // !!!记得这里是len + 1 
}


int main () {
	int lena,lenb,sb;
	scanf("%s", &instr);
	lena = strlen(instr);
	instr[lena] = 'z' + 1; // 追加没有出现的字符 
	sb = lena + 1;
	scanf("%s", &instr[sb]);
	len = strlen(instr);
	lenb = len - sb;

	makeSRH(instr, sa, height);
	int ans = 0;
	for(int i = 2; i <= len; ++i) {
		//printf("[%2d]%s |%d/n", i, &instr[sa[i]], height[i]);
		if( (sa[i-1]<lena&&sa[i]<lena) || (sa[i-1]>=sb&&sa[i]>=sb) ) continue;
		if(ans < lcp(i,i)) ans = lcp(i,i); // 
	}
	printf("%d/n", ans);
	return 0;
}