利用倍增算法的后缀数组

最新推荐文章于 2021-11-23 17:45:36 发布

Tsinting

最新推荐文章于 2021-11-23 17:45:36 发布

阅读量385

点赞数

分类专栏：算法知识收藏

算法知识收藏专栏收录该内容

5 篇文章 0 订阅

订阅专栏

仍然不是很懂，贴篇文章放在这儿希望有朝一日能顿悟吧。

原文地址：http://blog.csdn.net/j_sure/article/details/41777097

————————————————————————————————————————————————————————————————————————

后缀数组学习笔记【详解】

老天，一个后缀数组不知道看了多少天，最后终于还是看懂了啊！

最关键的就是一会儿下标表示排名，一会用数值表示排名绕死人了。

我不知道手跑了多少次才明白过来。其实我也建议初学者手跑几遍，但是一定要注意数组的意义，否则就是无用功。

数组含义：

s[ ]：输入的字符串，预处理的时候会在末尾加上一个0

sa[ ]：它的下标就是后缀排名

x[ ] = t[ ]：用来保存第一关键字排名，注意！它的数值是排名。初始时恰好是字符串的ASCII码。字典序嘛！

y[ ] = t2[ ]：它的下标就是第二关键字排名，第二关键字是直接从sa[ ]当中提取的，关系极其密切

c[ ]：用来基数排序。初始值恰好是每种字符出现的次数。后来它的作用就跟基数排序密切相关，建议学习基数排序

有一点一定要注意！第二关键字来自sa[ ]数组，但是第一关键字并不是来自sa[ ]数组！这一点不知道迷惑了多少人，就是因为论文里给出的图完全就是原理图，不是代码实现的图，不搭噶的！

P.S. 为了优化时间空间，避免新开一个中间数组来复制t[ ]的值，采用了将它的指针x和t2[ ]的指针y交换的方法。注意这个时候t2[ ]已经没有用了。

我先给出一个足以理解后缀数组的增加了中间输出的代码：

[cpp]view plaincopy 
   
print?
 #include <cstdio>  
 #include <cstring>  
 #include <algorithm>  
 using namespace std;  
 const int N = 1000, M = 130;  
 char s[N];  
 int sa[N], t[N], t2[N], c[M], n;  
 int rank[N], high[N];  
   
 #define DBG  
 #ifdef DBG  
 int db[N];  
 void debug(int *f)  
 {  
     for(int i = 0; i < n; i++) {  
         db[f[i]] = i;  
     }  
     printf("%3d", db[0]);  
     for(int i = 1; i < n; i++) {  
         printf(" %3d", db[i]);  
     }puts("]");  
 }  
 #endif  
   
 bool cmp(int *y, int i, int k)  
 {  
     return y[sa[i-1]] == y[sa[i]] && y[sa[i-1]+k] == y[sa[i]+k];  
 }  
   
 void build(int m)  
 {  
     int i, *x = t, *y = t2;  
     for(i = 0; i < m; i++) c[i] = 0;  
     for(i = 0; i < n; i++) c[x[i] = s[i]]++;  
     for(i = 1; i < m; i++) c[i] += c[i-1];  
     for(i = n-1; i >= 0; i--) sa[--c[x[i]]] = i;  
   
 #ifdef DBG  
     printf("sa Get:[");  
     debug(sa);  
     puts("");  
 #endif  
   
     for(int k = 1, p; k <= n; k<<=1, m=p) {  
         p = 0;  
         //y[]的下标就是对应的第二关键字排名，它是由sa[]直接得来的  
         //另外y[]的内容就是第一关键字所在位置  
         for(i = n-k; i < n; i++) y[p++] = i;  
         for(i = 0; i < n; i++) if(sa[i] >= k) y[p++] = sa[i] - k;  
   
 #ifdef DBG  
         printf("Gain y:[");  
         debug(y);  
         printf("Look x:{");  
         printf("%3d", x[0]);  
         for(i = 1; i < n; i++) {  
             printf(" %3d", x[i]);  
         }puts("}");  
 #endif  
   
         //x[]的内容就是对应的第一关键字排名  
         //根据x[]的内容和y[]的下标进行合并，得到新的排名作为sa[]的下标  
         for(i = 0; i < m; i++) c[i] = 0;  
         for(i = 0; i < n; i++) c[x[y[i]]]++;  
         for(i = 1; i < m; i++) c[i] += c[i-1];  
         for(i = n-1; i >= 0; i--) sa[--c[x[y[i]]]] = y[i];  
   
 #ifdef DBG  
         printf("sa Get:[");  
         debug(sa);  
         puts("");  
 #endif  
   
         //按照sa[]的顺序提取出老的x[]，计算新的x[]  
         swap(x, y);  
         p = 1; x[sa[0]] = 0;//sa[0]一定是添加的字符0，排名万年第0  
         for(i = 1; i < n; i++) {  
             x[sa[i]] = cmp(y, i, k) ? p-1 : p++;  
         }  
         //剪枝，此时x[]中已经没有相同的值，sa[]被确定  
         if(p >= n) break;  
     }  
 }  
   
 void get_high()  
 {  
     int k = 0;  
     for(int i = 0; i < n; i++) rank[sa[i]] = i;  
     for(int i = 0; i < n; i++) {  
         if(k) k--;  
         int j = sa[rank[i]-1];  
         while(s[i+k] == s[j+k]) k++;  
         high[rank[i]] = k;  
     }  
 }  
   
 void PR()  
 {  
     printf("The rank is:\n");  
     printf("%d", rank[0]);  
     for(int i = 1; i < n-1; i++) printf(" %d", rank[i]);  
     puts("");  
 }  
   
 int main()  
 {  
     scanf("%s", s);  
     n = strlen(s) + 1;  
     int maxi = 0;  
     for(int i = 0; i < n; i++) {  
         maxi = maxi > s[i] ? maxi : s[i];  
     }  
     s[n-1] = 0;  
     build(maxi+1);  
     get_high();  
 #ifdef DBG  
     PR();  
 #endif  
     return 0;  
 }