串匹配之karp-rabin算法

在前面已经介绍过了两种串匹配的策略,并且给出了具体的算法以及实现,即串匹配之kmp算法以及串匹配之bm算法,这里给出一种解决串匹配问题的全新思路,即karp-rabin算法。

万物皆数

回想我们平时对整数进行的比较,都可以在O(1)的时间内完成,而任何数据在计算机中的存储都是一系列的字节构成的二进制整数,串也不例外,那为什么不可以把对整数高效的比较操作也移植到串匹配问题上呢?这就是karp-rabin的基本思想。

一般地,对于任意一个串,设字符集的大小为d,则该串中的任意一个字符都可以用一个d+1进制的整数来表示。需要注意的是,这里是d+1进制,而不是d进制,是因为不能用0来表示任意一个字符,否则如果该字符组成串的一个前缀,无论前缀的长度多少,都不会影响串所对应的整数取值。

在这种情况下,任意一个串,都可以将之用整数表示出来,并且串与这个整数是唯一对应的,因此这是一个完美散列,因此将该整数称为串的指纹(fingerprint)。如果将该指纹转化为二进制整数,就可以在计算机中用二进制字节流唯一地表示一个字符串了。

karp-rabin算法

根据上面的分析似乎已经可以构造出一个新的串匹配算法了,具体说来,在每一个对齐位置,将模式串和与之对齐的文本串的m个字符,分别用其指纹表示出来,然后利用整数的比较就可以在O(1)时间内完成匹配,这样整体的时间复杂度为O(n),已经和kmp算法相当了!可是,果真这么简单吗?

答案是否定的,因为该过程中还存在着其他开销——比如将长度为m的串转化为其对应的指纹,其开销就已经是O(m)了,因此整个算法的时间开销是O(mn),与蛮力策略相当!此外,还存在一些新的问题,当字符集较大,或者串长度较长时,其转化成的指纹位数也会相当长,比如采用ASCII码字符集时,字符集的大小d = 128,如果模式串的长度m = 10,则其对应的指纹会占7 x 10 = 70个比特,已经超过了计算机中通常支持的整数位数,并且随着串的进一步增长,对这么多位指纹的比对也难以在O(1)时间内完成,而是也要消耗O(m)的时间,同时对这些整数的存储也是一个问题。

下面就从各个方面分别讨论怎么解决上述存在的这么多问题。

指纹长度的压缩<

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值