后缀数组小结

初学后缀数组:

//后缀数组模板

int wa[maxn],wb[maxn],wv[maxn],ws[maxn];//这些都是需要用到的中间变量
int cmp(int *r,int a,int b,int l)
{
	return r[a]==r[b]&&r[a+l]==r[b+l];
}
void da(int *r,int *sa,int n,int m)
//这里的n应该是字符串长度 + 1,最后一位为追加的0,我的感觉这里主要是为了方便下面height的求解,如果sa[0]出现在字符中间,则需要进行一些判断,从而增加了代码复杂度
//r为所求数组,sa为后缀数组
{
	int i,j,p,*x=wa,*y=wb,*t;
	//x首先存储原数组,然后变为rank数组
	//y对应排序好的第二关键字所在位置
	for(i=0;i<m;i++) ws[i]=0;//基数排序统计对应元素个数
	for(i=0;i<n;i++) ws[x[i]=r[i]]++;
	for(i=1;i<m;i++) ws[i]+=ws[i-1];
	for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;
	for(j=1,p=1;p<n;j*=2,m=p)//m = p,表示排名的最大值;p == n是终止条件;需要对p进行初始化,最小值需要为1,
	{
		//这两步对y进行处理,记录第二关键字所在位置,从小到大
		for(p=0,i=n-j;i<n;i++) y[p++]=i;
		for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;//因为这里对应的是sa[],而sa[]中元素为有序已经排序好的,所以直接赋值即可

		for(i=0;i<n;i++) wv[i]=x[y[i]];//wv[]第二关键字所在位置的排名,“统计元素种类,为了下面ws[]的使用”
		for(i=0;i<m;i++) ws[i]=0;
		for(i=0;i<n;i++) ws[wv[i]]++;
		for(i=1;i<m;i++) ws[i]+=ws[i-1];
		for(i=n-1;i>=0;i--) sa[--ws[wv[i]]]=y[i];//这里需要使用y[i]来赋值,y[]对应从小到大排序好第二关键字所在位置

		for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)
		//上面的交换算法作用是将x数组所有元素赋值给y,如果直接y = x,则会使x,y指向同一地址
		x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;//将sa[]转变为rank,使用x[]来存储。p记录后缀字符串不同的个数,如果等于n则可以结束
	}
	return;
}


//求height[],后缀数组的使用

int rank[nMax], height[nMax];
int calHeight(int *r, int *sa, int n)//这里的n为实际字符串长度
{
	int i, j, k;
	for(i = 1; i < n; ++ i) rank[sa[i]] = i;//将sa[]转变为rank[]。这里从1开始即可,因为rank[sa[0]]始终为0
	for(i = 0; i < n; height[rank[i ++]] = k;)//到不了n,也就是说取不到追加的0,这样就可以避免rank[]等于0的情况,从而方便下面rank[i] - 1的运算
		//h[i] = height[rank[i]],h[i] >= h[i - 1] - 1。h[i]表示后缀数组suffix(i)与前面相邻后缀数组的最长公共字符串
		for(k ? k -- : 0, j = sa[rank[i] - 1]; r[i + k] == r[j + k]; k ++);
}

推荐博客:http://hi.baidu.com/fhnstephen/blog/item/4b20757c37245d0429388a76.html,讲解很详细

后缀数组中注意事项:

①需要在所求数组最后一位加0,主要为了方便后面求height[]的操作。

②函数sa()中传递的n为元素总个数N,函数calheight()中传递的n为元素总个数N减1.

设所求数组为A[],其中A[0,N-2]为原来元素,A[N-1]=0。这样所求sa[0]必然等于N-1。height[0]无意义,height[1]始终为0。sa,rank,height数组所在区间上限都为N-1

③求height[]是后缀数组的重点,所有的运算基本上都是基于height[]数组之上的。记住一个公式就会发现后缀数组的强大,重复子串 = 后缀的公共前缀,所以后缀数组可以处理一切涉及到重复子串的问题

后缀数组模板:

//后缀数组模板
int wa[maxn],wb[maxn],wv[maxn],ws[maxn];

int cmp(int *r,int a,int b,int l)
{
	return r[a]==r[b]&&r[a+l]==r[b+l];
}

void da(int *r,int *sa,int n,int m)
{
	int i,j,p,*x=wa,*y=wb,*t;
	for(i=0;i<m;i++) ws[i]=0;
	for(i=0;i<n;i++) ws[x[i]=r[i]]++;
	for(i=1;i<m;i++) ws[i]+=ws[i-1];
	for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;
	for(j=1,p=1;p<n;j*=2,m=p)
	{
		for(p=0,i=n-j;i<n;i++) y[p++]=i;
		for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
		for(i=0;i<n;i++) wv[i]=x[y[i]];
		for(i=0;i<m;i++) ws[i]=0;
		for(i=0;i<n;i++) ws[wv[i]]++;
		for(i=1;i<m;i++) ws[i]+=ws[i-1];
		for(i=n-1;i>=0;i--) sa[--ws[wv[i]]]=y[i];
		for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)
			x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
	}
	return;
}

int rank[maxn],height[maxn];
void calheight(int *r,int *sa,int n)
{
	int i,j,k=0;
	for(i=1;i<=n;i++) rank[sa[i]]=i;
	for(i=0;i<n;height[rank[i++]]=k)
		for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);
		return;
}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值