在前面已经介绍过了两种串匹配的策略,并且给出了具体的算法以及实现,即串匹配之kmp算法以及串匹配之bm算法,这里给出一种解决串匹配问题的全新思路,即karp-rabin
算法。
万物皆数
回想我们平时对整数进行的比较,都可以在O(1)
的时间内完成,而任何数据在计算机中的存储都是一系列的字节构成的二进制整数,串也不例外,那为什么不可以把对整数高效的比较操作也移植到串匹配问题上呢?这就是karp-rabin
的基本思想。
一般地,对于任意一个串,设字符集的大小为d
,则该串中的任意一个字符都可以用一个d+1
进制的整数来表示。需要注意的是,这里是d+1
进制,而不是d
进制,是因为不能用0
来表示任意一个字符,否则如果该字符组成串的一个前缀,无论前缀的长度多少,都不会影响串所对应的整数取值。
在这种情况下,任意一个串,都可以将之用整数表示出来,并且串与这个整数是唯一对应的,因此这是一个完美散列
,因此将该整数称为串的指纹
(fingerprint)。如果将该指纹
转化为二进制整数,就可以在计算机中用二进制字节流唯一地表示一个字符串了。
karp-rabin算法
根据上面的分析似乎已经可以构造出一个新的串匹配算法了,具体说来,在每一个对齐位置,将模式串和与之对齐的文本串的m
个字符,分别用其指纹
表示出来,然后利用整数的比较就可以在O(1)
时间内完成匹配,这样整体的时间复杂度为O(n)
,已经和kmp
算法相当了!可是,果真这么简单吗?
答案是否定的,因为该过程中还存在着其他开销——比如将长度为m
的串转化为其对应的指纹
,其开销就已经是O(m)
了,因此整个算法的时间开销是O(mn)
,与蛮力策略相当!此外,还存在一些新的问题,当字符集较大,或者串长度较长时,其转化成的指纹
位数也会相当长,比如采用ASCII
码字符集时,字符集的大小d = 128
,如果模式串的长度m = 10
,则其对应的指纹
会占7 x 10 = 70
个比特,已经超过了计算机中通常支持的整数位数,并且随着串的进一步增长,对这么多位指纹
的比对也难以在O(1)
时间内完成,而是也要消耗O(m)
的时间,同时对这些整数的存储也是一个问题。
下面就从各个方面分别讨论怎么解决上述存在的这么多问题。
指纹长度的压缩<