《后缀数组－许智磊》论文的学习笔记

最新推荐文章于 2020-01-17 15:54:44 发布

hgd250

最新推荐文章于 2020-01-17 15:54:44 发布

阅读量1.5k

点赞数

分类专栏：聚类文章标签：算法扩展

本文链接：https://blog.csdn.net/hgd250/article/details/5285529

版权

聚类专栏收录该内容

1 篇文章 0 订阅

订阅专栏

仔细看过了《后缀数组－许智磊》论文

在实现其中的算法时，发现一处疏漏：
计算LCP的方法：
原文算法是这样描述的：
    若 Rank[i]=1，则h[i]=0。字符比较次数为0。
    若 i=1 或者h[i-1]≤1，则直接将Suffix(i)和Suffix(Rank[i]-1)从第一个字符开始依次比较直到有字符不相同，由此计算出h[i]。字符比较次数为h[i]+1，不超过h[i]-h[i-1]+2。
    否则，说明i>1，Rank[i]>1，h[i-1]>1，根据性质3，Suffix(i)和Suffix(Rank[i]-1)至少有前h[i-1]-1 个字符是相同的，于是字符比较可以从h[i-1]开始，直到某个字符不相同，由此计算出h[i]。字符比较次数为h[i]-h[i-1]+2。

这里的应该是：Suffix(Rank(i))和Suffix(Rank[i]-1)来比较。

改后算法描述为：
    若 Rank[i]=1，则h[i]=0。字符比较次数为0。
    若 i=1 或者h[i-1]≤1，则直接将Suffix(Rank(i))和Suffix(Rank[i]-1)从第一个字符开始依次比较直到有字符不相同，由此计算出h[i]。字符比较次数为h[i]+1，不超过h[i]-h[i-1]+2。
    否则，说明i>1，Rank[i]>1，h[i-1]>1，根据性质3，Suffix(Rank(i))和Suffix(Rank[i]-1)至少有前h[i-1]-1 个字符是相同的，于是字符比较可以从h[i-1]开始，直到某个字符不相同，由此计算出h[i]。字符比较次数为h[i]-h[i-1]+2。

自己实现了一个扩展版的SuffixArry,即以单词为单位进行匹配，而不是单个字符的形式

源码到此处下载（不要分，免费下）：

http://download.csdn.net/source/2045119

hgd250

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《后缀数组－许智磊》论文的学习笔记

仔细看过了《后缀数组－许智磊》论文在实现其中的算法时，发现一处疏漏：计算LCP的方法：原文算法是这样描述的：若 Rank[i]=1，则h[i]=0。字符比较次数为0。若 i=1 或者h[i-1]≤1，则直接将Suffix(i)和Suffix(Rank[i]-1)从第一个字符开始依次比较直到有字符不相同，由此计算出h[i]。字符比较次数为h[i]+1，不超过h
复制链接

扫一扫