RobinKarp(字符串哈希)---分析与实现(C++)

_不会dp不改名_

已于 2024-03-09 17:35:23 修改

阅读量439

点赞数

分类专栏： # 哈希 # 字符串文章标签： c++ 哈希算法算法

于 2023-06-09 23:32:21 首次发布

本文链接：https://blog.csdn.net/bdn_nbd/article/details/131136377

版权

字符串同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

哈希

5 篇文章 0 订阅

订阅专栏

1. 简述

给定字符串pattern和串text。求串pattern在串text中出现的位置。

暴力比较是逐个字符比较来确定两个串是否相等，若当前比较失败

则回到开始字符对应字符的后一个字符重复过程。

在这里插入图片描述

哈希就是一个大范围到小范围的映射

字符串哈希则是通过比较两个串的哈希值相等来判断两个字符串是

否相等，如果每次都要像暴力字符匹配那样重新计算哈希值的话，

那么复杂都就太高了。所以这里用到了一种技巧：滚动哈希。

在这里插入图片描述

2. 滚动哈希

由上面的图可以知道，要让字符串哈希求值快，则需要

Hash(0, p.size)到Hash(1, p.size + 1)的转换快。

所以我们这里直接自然想到了，进制的表示。

所以我们很自然的定义哈希函数

$H(str) = a^0str[0] + a^{1}str[1]...+a^{str.size()}str[str.size() - 1]$
则
$H (0, p a t . s i ze () - 1) = H (s t r) H (1, p a t . s i ze () - 1) = H (s t r) - s t r [0]$
推导式
$H(1, str.size()) = (H(str) - str[0])/base + a^{pat.size() - 1}*str[ {str.size()}]$

3. 更进一步

如果直接这样运算的话，H(str)的值会随着字符串长度的增加而呈指数级的增长。我

们希望值落在一个区间，所以通常会模上一个数使得哈希值在给定区间。

$\% p = c <=> a = kp + c ( 0 < c < p)$

因为我们无法从

$({\sum_{i=1}\limits^{p.size - 1}} {{base}^{i}txt[i]})\% MOD$

推出
$({\sum_{i = 1}\limits^{p.size - 1}{base^{i - 1}txt[i]}}) \% MOD$
因为
$\% MOD = (a \% MOD) * (b \% MOD) \% MOD$
成立，而

$\% MOD \neq (a\%MOD)/(b\%MOD)\%MOD$

所以原来的哈希函数不行，而我们反着来的时候就可以了。

$\sum_{i = 0}\limits^{ p.size - 1} base^{p.size - 1 - i} * str[i]$
此时的H(0, p.size - 1)到H(1, p.size)推导式为

$H(1, p.size) = \{(H(0, p.size - 1) - (str[0]base^{p.size - 1}\%MOD) + MOD)\%MOD*base + str[p.size]\} \%MOD$
所以我们应该先求出 $base^{p.size - 1} \% MOD$

求模运算时要特别注意是否有相减为负数的情况。

3. 实现


#include <iostream>

#include <boost/thread.hpp>
#include <boost/asio.hpp>

#include <string>

int robinKarp(const char *pat, const char *txt, uint8_t base)
{
    if (!pat || !txt || !base)
        return -1;

    int pLen = (int) strlen(pat);
    int tLen = (int) strlen(txt);
    int MOD = 251;

    if (pLen > tLen)
        return -1;

    int patHashVal = 0;

    int mem_base = 1;
    int cTxtHashVal = 0;


    for ( int i = 0; i < pLen; ++i) {
        cTxtHashVal += mem_base * txt[ pLen - 1 - i ] ;
        patHashVal += mem_base * pat[ pLen - 1 - i ];
        cTxtHashVal %= MOD;
        patHashVal %= MOD;

        if ( i + 1 != pLen)
            mem_base = (mem_base * base) % MOD;
    }
    if (cTxtHashVal == patHashVal)
        return 0;

    for ( int i = pLen;i < tLen; ++i) {



        cTxtHashVal = (cTxtHashVal - (mem_base * txt[i - pLen])%MOD + MOD)%MOD;
        cTxtHashVal = (cTxtHashVal * base + txt[i]) % MOD;

        if (cTxtHashVal == patHashVal) {
            //printf("%d\t", i - pLen + 1);
             return i - pLen + 1;
        }
    }

    return -1;
}

int main( int argc, char **argv)
{

    std::string txt("abeaabcabc");
    std::string pat("abc");


    int ret = robinKarp(pat.c_str(), txt.c_str(), 255);

    if ( -1 != ret ) {
        std::cout << "match pos: " << ret << std::endl;
    }

    return 0;
}