后缀数组—sa与rank

后缀数组是处理字符串的有效工具,它的优点是代码短,速度快,内存小,功能强大。这里先介绍它的代码。

这里用的是倍增算法

后缀数组:sa数组,它保存所有后缀排序后从小到大的序列。

名次数组:rank数组,rank[i] 保存的是Suffix(i)在所有后缀中从小到大排列的“名次”。

在寻找sa数组和rank数组的过程中:sa一定不会相同,如果字符串一样,则开头靠后的排名靠后;rank如果字符串一样则相同)


思路:用倍增的方法对每个字符开始的长度为2k的子字符串进行基数排序,求出排名,即rank值。k从0开始,每次加1。直至rank中的排名各不相同为止。

代码和数组含义:

/**************************************************

含义:
n:有n个字符
m:不同字符的个数(开始时有128个)
a[]:是原数组
rsort[i]:i出现了多少次
wr[i]:保存的是对第二关键字排序后的 第二关键字所指向的第一关键字 
y[i]:(以第二关键字为排序依据)第二关键字是第i名的第一关键字所处的位置 

**************************************************/

int n,m;
char a[];
int sa[],rank[],rsort[],wr[],y[];

bool cmp(int k1,int k2,int ln)
{
	return wr[k1]==wr[k2]&&wr[k1+ln]==wr[k2+ln];
	//       第一关键字         第二关键字  
} 

void get_sa()
{
	//下面四句是基数排序 
	for(int i=0;i<=m;i++) rsort[i]=0;
	for(int i=1;i<=n;i++) rsort[rank[i]=a[i]]++;//统计出现次数 
	for(int i=1;i<=m;i++) rsort[i]+=rsort[i-1];//统计大致排名 
	for(int i=n;i>=1;i--) sa[rsort[rank[i]]--]=i;//i从n-1开始循环,是因为当字符串中有相等的字符串时,默认靠前的字符串更小一些。 
	
	for(int ln=1,p=0,k=0;p<n/*当所有字符串都不同的时候,就可以提前结束了*/;ln*=2,m=p,k=0)// ln为当前子串的长度
	{
		for(int i=n-ln+1;i<=n;i++) y[++k]=i;//后面都是0,所以排前面 
		for(int i=1;i<=n;i++) if(sa[i]>ln)/*由 sa[i]-ln>0 得来*/ y[++k]=sa[i]-ln;//借上次排序结果sa[],对第二关键字进行排序 
		for(int i=1;i<=n;i++) wr[i]=rank[y[i]];//提取出每个字符串的第一关键字
		
		//下面四句同是基数排序 
		for(int i=0;i<=m;i++) rsort[i]=0;
		for(int i=1;i<=n;i++) rsort[wr[i]]++;
		for(int i=1;i<=m;i++) rsort[i]+=rsort[i-1];
		for(int i=n;i>=1;i--) sa[rsort[wr[i]]--]=y[i];
		
		memcpy(wr,rank,sizeof(wr));//wr[]=rank[],可能有多个字符串的rank值是相同的,所以必须比较两个字符串是否完全相同,wr数组的值已经没有必要保存,为了节省空间,这里用wr数组保存rank值。 
		p=1;rank[sa[1]]=1;//p表示有多少不相同的子串
		for(int i=2;i<=n;i++)
		{
			if(!cmp(sa[i],sa[i-1],ln)) p++;//看看排名相近的两个是否相同 
			rank[sa[i]]=p;//刷新rank的值
		}
	}
	sa[0]=rank[0]=0;
}

例题(来源:caioj 1180)

下面是对后缀数组的新理解:

/*

y[i]:以第二关键字排序,排第i的字符串的开头在哪里
y[(第二关键字)排名]=(第一关键字)位置 

当运用Rsort的时候,Rsort[i]表示i的排名的新排名(不会重复)
Rsort[(现)排名]=(新)排名 

wr[i]:第二关键字排名第i的字符串 的第一关键字的排名
wr[(第二关键字)排名]=(第一关键字)排名 

sa[排名]=位置 
rank[位置]=排名 

*/

#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;

int a[1100000];char s[1100000];
int sa[1100000],rank[1100000];
int y[1100000],wr[1100000],Rsort[1100000];

bool cmp(int k1,int k2,int ln)
{
	return wr[k1]==wr[k2]&&wr[k1+ln]==wr[k2+ln];
}

void get_sa(int n,int m)
{
	memset(Rsort,0,sizeof(Rsort));
	for(int i=1;i<=n;i++) Rsort[rank[i]=a[i]]++;
	for(int i=1;i<=m;i++) Rsort[i]+=Rsort[i-1];
	for(int i=n;i>=1;i--) sa[Rsort[rank[i]]--]=i;//原为 sa[rank[i]]=i,为了不让sa相等,所以弄了Rsort
	
	int ln=1,p=0,k;
	while(p<n)
	{
		k=0;
		for(int i=n-ln+1;i<=n;i++) y[++k]=i;
		for(int i=1;i<=n;i++) if(sa[i]-ln>0) y[++k]=sa[i]-ln;
		
		memset(Rsort,0,sizeof(Rsort));
		for(int i=1;i<=n;i++) Rsort[wr[i]=rank[y[i]]]++;
		for(int i=1;i<=m;i++) Rsort[i]+=Rsort[i-1];
		for(int i=n;i>=1;i--) sa[Rsort[wr[i]]--]=y[i];
		
		memcpy(wr,rank,sizeof(rank));
		p=1;rank[1]=1;
		for(int i=2;i<=n;i++)
		{
			if(cmp(sa[i-1],sa[i],ln)==false) p++;
			rank[sa[i]]=p;
		}
		m=p;ln*=2;
	}
}

int main()
{
	scanf("%s",s+1);
	int n=strlen(s+1);
	for(int i=1;i<=n;i++) a[i]=s[i]-'a'+1;
	get_sa(n,128);
	for(int i=1;i<n;i++) printf("%d ",sa[i]);
	printf("%d\n",sa[n]);
	return 0;
}



推荐:《后缀数组—heigh》http://blog.csdn.net/a_bright_ch/article/details/53516899
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值