后缀数组(Suffix Array)

最新推荐文章于 2024-04-05 20:50:43 发布

Skyprophet

最新推荐文章于 2024-04-05 20:50:43 发布

阅读量3.8k

点赞数

分类专栏：学习笔记文章标签：算法编程工具

本文链接：https://blog.csdn.net/Skyprophet/article/details/5390412

版权

学习笔记专栏收录该内容

14 篇文章 0 订阅

订阅专栏

这个悲剧的东西在经历了半个月的研究后，终于研究明白了…………

学会了之后突然发现，这个东西实在是太nb了~~

首先还是先说一说这个东西的精髓~所谓后缀数组就是把一个整串的所有后缀的信息以一种比较高效的方式提取出来。而这种工具就是后缀数组。为什么我们偏偏选择了后缀呢？因为我们发现了了一个非常不错的现象——整个串的所有子串实际上就是所有后缀的一个个前缀。这样，几乎所有类型的字符串问题都可以变成后缀数组了。

下面给出后缀数组的定义：

定义数组SA[i]表示将所有一个串的所有的后缀排序之后(排序的规则：字典序，如果前面的东西都一样，那就看字符串的长度)，排在第i位上的后缀的首字符在字符串中的位置、

同样定义一个rank数组，rank[i]表示i在后缀数组中的位置，因此我们知道sa和rank的关系是一一对应的。

求这个东西看起来很简单，但是实际上当我们仔细想想看，我们发现如果直接快排求sa会很悲剧。原因在于在比较两个字符串的大小时我们会遇到麻烦。我们无法保证时间复杂度是O(nlogn)的。所以我们需要一种更好的算法来求后缀数组SA。

比较常见的两种方法一种是倍增算法，一种是DC3算法。前者时间复杂度为O(nlogn)，后者为O(n)。但是在实测当中，两者相差不多，并且后者的编程复杂度十分高，所以我们选择前者。

倍增算法当然就是用倍增的思想来构造后缀数组。思想大概是这样的：每一次取上一次排序长度的二倍的字符串进行处理，这样我们可以通过将上轮排序中的结果倍增，通过两个关键字的比较而得到新的顺序。直到所有的后缀的SA值都已求出，在这过程中rank数组同样也被求出来了。

P.s.想法很简单，但是在实际写出来的时候并没有想象中的那么简单。建议读者自己尝试着写一写。

贴下求sa和rank的代码：

procedure suffix_init; var i,p,m,j:longint; begin fillchar(sum,sizeof(sum),0); for i:=1 to n do begin rank[i]:=ord(s[i])-ord('a')+1; inc(sum[rank[i]]); end; for i:=1 to 26 do inc(sum[i],sum[i-1]); for i:=n downto 1 do begin sa[sum[rank[i]]]:=i; dec(sum[rank[i]]); end; m:=0; for i:=1 to n do begin if rank[sa[i]]<>rank[sa[i-1]] then inc(m); tmprank[sa[i]]:=m; end; rank:=tmprank; j:=1; while m<n do begin fillchar(sum,sizeof(sum),0); p:=0; for i:=n-j+1 to n do begin inc(p); tmp[p]:=i; end; for i:=1 to n do if sa[i]>j then begin inc(p); tmp[p]:=sa[i]-j; end; for i:=1 to n do begin tmprank[i]:=rank[tmp[i]]; inc(sum[tmprank[i]]); end; for i:=1 to m do inc(sum[i],sum[i-1]); for i:=n downto 1 do begin sa[sum[tmprank[i]]]:=tmp[i]; dec(sum[tmprank[i]]); end; m:=0; for i:=1 to n do begin if (rank[sa[i]]<>rank[sa[i-1]]) or (rank[sa[i]+j]<>rank[sa[i-1]+j]) then inc(m); tmprank[sa[i]]:=m; end; rank:=tmprank; j:=j shl 1; end; end;

写到这里并不是结束，因为很多情况下我们的操作是和前缀有关的，所以经常我们会维护公共前缀的长度。这个要怎么做呢？

我们定义这样一个数组height[i]，表示suffix(sa[i])和suffix(sa[i-1])的最长公共前缀。

这个height的用法就是，比如你要求suffix(i)和suffix(j)的最长公共前缀。这个问题就变成了rmq(height,rank[i],rank[j])。为什么请读者思考~

求法当然不能一个个来，有一种相当高效的方法。想法是从一个前缀过度到后一个前缀的过程实际上是去掉了第一个字符。所以维护一个j，然后按照字符串的原始顺序进行扫描，每次比较rank[i]和rank[i]-1比较公共部分然后inc(j)。当然这样height[i]就是j了，当然不能这样结束，每次结束的时候都dec(j)，这样下一次只需要从j开始比较了，因为公共前缀的长度至少为j。

代码：

procedure calc_height; var i,j,k:longint; begin j:=0; for i:=1 to n do begin if rank[i]=1 then continue; k:=sa[rank[i]-1]; while s[i+j]=s[k+j] do inc(j); height[rank[i]]:=j; if j>0 then dec(j); end; end;

Skyprophet

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
后缀数组(Suffix Array)

这个悲剧的东西在经历了半个月的研究后，终于研究明白了…………学会了之后突然发现，这个东西实在是太nb了~~首先还是先说一说这个东西的精髓~所谓后缀数组就是把一个整串的所有后缀的信息以一种比较高效的方式提取出来。而这种工具就是后缀数组。为什么我们偏偏选择了后缀呢？因为我们发现了了一个非常不错的现象——整个串的所有子串实际上就是所有后缀的一个个前缀。这样，几乎所有类型的字符串问题都可以变成后缀
复制链接

扫一扫