串匹配之karp-rabin算法

最新推荐文章于 2023-06-14 23:33:21 发布

Shine__Wong

最新推荐文章于 2023-06-14 23:33:21 发布

阅读量1.1k

点赞数 4

分类专栏： dsa 文章标签： karp-rabin 串匹配数据结构算法

本文链接：https://blog.csdn.net/Shine__Wong/article/details/102095474

版权

在前面已经介绍过了两种串匹配的策略，并且给出了具体的算法以及实现，即串匹配之kmp算法以及串匹配之bm算法，这里给出一种解决串匹配问题的全新思路，即karp-rabin算法。

万物皆数

回想我们平时对整数进行的比较，都可以在O(1)的时间内完成，而任何数据在计算机中的存储都是一系列的字节构成的二进制整数，串也不例外，那为什么不可以把对整数高效的比较操作也移植到串匹配问题上呢？这就是karp-rabin的基本思想。

一般地，对于任意一个串，设字符集的大小为d，则该串中的任意一个字符都可以用一个d+1进制的整数来表示。需要注意的是，这里是d+1进制，而不是d进制，是因为不能用0来表示任意一个字符，否则如果该字符组成串的一个前缀，无论前缀的长度多少，都不会影响串所对应的整数取值。

在这种情况下，任意一个串，都可以将之用整数表示出来，并且串与这个整数是唯一对应的，因此这是一个完美散列，因此将该整数称为串的指纹(fingerprint)。如果将该指纹转化为二进制整数，就可以在计算机中用二进制字节流唯一地表示一个字符串了。

karp-rabin算法

根据上面的分析似乎已经可以构造出一个新的串匹配算法了，具体说来，在每一个对齐位置，将模式串和与之对齐的文本串的m个字符，分别用其指纹表示出来，然后利用整数的比较就可以在O(1)时间内完成匹配，这样整体的时间复杂度为O(n)，已经和kmp算法相当了！可是，果真这么简单吗？

答案是否定的，因为该过程中还存在着其他开销——比如将长度为m的串转化为其对应的指纹，其开销就已经是O(m)了，因此整个算法的时间开销是O(mn)，与蛮力策略相当！此外，还存在一些新的问题，当字符集较大，或者串长度较长时，其转化成的指纹位数也会相当长，比如采用ASCII码字符集时，字符集的大小d = 128，如果模式串的长度m = 10，则其对应的指纹会占7 x 10 = 70个比特，已经超过了计算机中通常支持的整数位数，并且随着串的进一步增长，对这么多位指纹的比对也难以在O(1)时间内完成，而是也要消耗O(m)的时间，同时对这些整数的存储也是一个问题。

下面就从各个方面分别讨论怎么解决上述存在的这么多问题。

指纹长度的压缩<

最低0.47元/天解锁文章

Shine__Wong

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
串匹配之karp-rabin算法

万物皆数回想我们平时对整数进行的比较，都可以在O(1)的时间内完成，而任何数据在计算机中的存储都是一系列的字节构成的二进制整数，串也不例外，那为什么不可以把对整数高效的比较操作也移植到串匹配问题上呢？这就是karp-rabin的基本思想。一般地，对于任意一个串，设字符集的大小为d，则该串中的任意一个字符都可以用一个d+1进制的整数来表示。需要注意的是，这里是d+1进制，而不是d进制，是因为不能...
复制链接

扫一扫