字符串Hash

最新推荐文章于 2024-07-12 22:00:07 发布

hesorchen

最新推荐文章于 2024-07-12 22:00:07 发布

阅读量3.7k

点赞数

分类专栏： # 字符串哈希

本文链接：https://blog.csdn.net/hesorchen/article/details/108627425

版权

字符串哈希专栏收录该内容

3 篇文章 0 订阅

订阅专栏

字符串Hash原理，将字符串映射成一个值，是一个单向加密的过程。比较简单和常用的是进制哈希，我们把字符串看成是p进制数，然后使用unsigned long long的自然溢出（相当于是对 $2^{64}$ 取模）是对 $2^{64}$ 取模，如果两个字符串的hash值相同，则可以认为两个字符串相同。

单个字符串的Hash值

要求长度为 $l e n$ 的字符串 $s t r$ 的Hash值

先预处理出一个 $p w d []$ 数组， $p w d [i]$ 表示 $p^i$ 。

Hash[]表示字符串的哈希值（p进制取模值）。显然有

$H a s h [i] = (H a s h [i - 1] * p + s t r [i]$

这样我们可以On求出 $s t r$ 的哈希值。

子串的Hash值

在上面我们已经求得Hash[i]表示字符串abcbc的前缀子串的哈希值。假如现在我们要求区间bc这个子串的哈希值该怎么做呢？

先来看Hash[i]：
$Hash[1] : p^1 * str[1]$
$Hash[2] : p^2 * str[1] + p^1 * str[2]$
$Hash[3] : p^3 * str[1] + p^2 * str[2] + p^1 * str[3]$
$Hash[4] : p^4 * str[1] + p^3 * str[2] + p^2 * str[3] + p^1 * str[4]$
$Hash[5] : p^5 * str[1] + p^4 * str[2] + p^3 * str[3] + p^2 * str[4] + p^1 * str[5]$

现在要求子串bc的哈希，也就是l=2，r=3的Hash值，就是

$H a s h [r] - H a s h [l - 1] * p w d [r - l + 1]$

可以发现， $H a s h [5] - H a s h [3] * p w d [2]$ 结果和 $H a s h [3] - H a s h [1] * p w d [2]$ 一样。也论证了一样的字符串Hash值一样的结论。

模板题：洛谷P3370 【模板】字符串哈希

AC代码：

unsigned long long pwd[100010], Hash[100010];
set<unsigned long long> st;
char s[100010];
int main()
{
    int n, base = 13331;
    scanf("%d", &n);
    pwd[0] = 1;
    for (int i = 1; i <= 100000; i++)
        pwd[i] = pwd[i - 1] * base;
    while (n--)
    {
        scanf("%s", s + 1);
        s[0] = ' ';
        int len = strlen(s);
        for (int i = 1; i <= len; i++)
            Hash[i] = Hash[i - 1] * base + s[i];
        st.insert(Hash[len]);
    }
    printf("%d\n", st.size());
    return 0;
}