[转]BM 算法中“好后缀”预处理

最新推荐文章于 2024-05-31 17:10:30 发布

weixin_30826095

最新推荐文章于 2024-05-31 17:10:30 发布

阅读量672

点赞数

文章标签： java

原文链接：http://www.cnblogs.com/fuyou/p/3233297.html

版权

其实上次在写 BM 算法的原理时，应该把如何实现"好后缀"的预处理一起写上，只是因为急着出去，没有写清楚，只是一带而过，现在把预处理们仔细写一下，希望和对字符串处理技术感兴趣的朋友们探讨。当然，对于 BM 算法还有许多需要思考的，比如证明它的时间复杂度最坏是 O(m)等等问题，并不是一句话就能说明白的。

在上一篇文章中（精确字符串匹配（BM算法））提到了 L(i)，它是用来存储 t' 最靠右位置 j 的，假设用 t 表示 P[i..n], t' 就是在 P 中重复出现 t 的一段。而 P 也需要向右移，使 L(i) 与 T 中的字符对应。

如图：

_____t' _____t' _____t

| | | | | |

a a b c d a q f b c d e e b c d

| |

L(i) i

那么如何在 O(n) 时间计算出 L(i) 呢？

在这里需要用到一个值 N(j),N(j)是 Zbox (精确字符串匹配（Zbox算法）)的相反概念，且 N(j)= Z(n-j+1)。

如图：

j

Z(j) a c d b a c d e f

|___|

Z(j)

j

N(j) a f e m o c e m o

|___|

N(j)

可见，Z(j) 与 N(j) 一个是和前缀相同的 Zbox 长度，一个是和后缀相同的 Nbox 长度。显然可以根据求 Zbox 的方法求出 Nbox,而求 Zbox 的方法非常简单，而且是 O(n) 的，在Zbox 那篇文章中有详细说明。

求出了所有的 N(j) 之后，就可以利用它求 L(i) 了。

算法描述是：

for i:=1 to n do L(i):=0

for j:=1 to n-1 do

begin

i := n-N(j)+1;

L(i) := j;

end;

以上是预处理中 L(i) 的计算方法。下面写一下预处理中对 l(i)的计算方法。

l(i) 表示的是最长的 P[i..n] 的后缀的长度，同时这个后缀还要是 P 的前缀，如果不存在，l(i) 就是0。

如图：

a a c c d e f f a a c

i

图中 l(i)=3。

结合 N(j),可以看出 l(i)=j, 使 N(j)=j的最大j值，且 j<=|P[i..n]|。

来自 <http://blog.chinaunix.net/uid-20338639-id-1964956.html>

转载于:https://www.cnblogs.com/fuyou/p/3233297.html

weixin_30826095

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[转]BM 算法中“好后缀”预处理

其实上次在写 BM 算法的原理时，应该把如何实现"好后缀"的预处理一起写上，只是因为急着出去，没有写清楚，只是一带而过，现在把预处理们仔细写一下，希望和对字符串处理技术感兴趣的朋友们探讨。当然，对于 BM 算法还有许多需要思考的，比如证明它的时间复杂度最坏是 O(m)等等问题，并不是一句话就能说明白的。在上一篇文章中（精确字符串匹配（BM算法））提到了 L(i)，它是用来存储...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。