一道题帮你理解【字符串哈希】算法_字符串哈希不会溢出吗-CSDN博客

本文链接：https://blog.csdn.net/m0_47199890/article/details/122102074

本文借鉴宫水三叶的刷题笔记

本文通过 Leetcode 187. 重复的DNA序列这道题来介绍字符串哈希算法，附带源码

题目描述

所有 DNA 都由一系列缩写为 ‘A’，‘C’，‘G’ 和 ‘T’ 的核苷酸组成，例如：“ACGAATTCCG”。在研究 DNA 时，识别 DNA 中的重复序列有时会对研究非常有帮助。

编写一个函数来找出所有目标子串，目标子串的长度为 10，且在 DNA 字符串 s 中出现次数超过一次。

Example 1:

Input: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
Output: ["AAAAACCCCC","CCCCCAAAAA"]

Example 2:

Input: s = "AAAAAAAAAAAAA"
Output: ["AAAAAAAAAA"]

Constraints:

1 <= s.length <= 105
s[i] is either 'A', 'C', 'G', or 'T'.

思路一：滑动窗口 + 哈希表

数据范围只有 10 ^ 5 ，一个朴素的想法是：从左到右处理字符串，使用滑动窗口得到每个以 $s [i]$ 为结尾且长度为 $10$ 的子串，同时使用哈希表记录每个子串的出现次数，如果该子串出现次数超过一次，则加入答案。

为了防止相同的子串被重复添加到答案，而又不使用常数较大的 Set 结构。我们可以规定：当且仅当该子串在之前出现过一次（加上本次，当前出现次数为两次）时，将子串加入答案。

class Solution {
    public List<String> findRepeatedDnaSequences(String s) {
        List<String> ans = new ArrayList<>();
        int n = s.length();
        Map<String, Integer> map = new HashMap<>();
        for (int i = 0; i + 10 <= n; i++) {
            String cur = s.substring(i, i + 10);
            int cnt = map.getOrDefault(cur, 0);
            if (cnt == 1) ans.add(cur);
            map.put(cur, cnt + 1);
        }
        return ans;
    }
}

时间复杂度： $\times C)$ ， $n$ 为字符串长度， $C$ 为子串长度 10
空间复杂度： $O (n)$

字符串最多长度为 10 ^ 5，子串长度为 $10$ ，因此上述解法的计算量为 10 ^ 6。

若题目给定的子串长度大于 $100$ 时，那么计算量将超过 10 ^ 7 ，会 $T L E$ 。

因此一个能够做到严格 $O (n)$ 的做法是使用「字符串哈希 + 前缀和」

思路二：字符串哈希 + 前缀和

说得通俗一点，字符串哈希实质上就是把每个不同的字符串转成不同的整数

一般地，给定一个字符串 $S = s 1 s 2 s 3 s 4 . . . s n$ ，令 $i d x (x) = x -' a' + 1$ ，当然，直接 $(i n t) x$ （用它的ASCll码）也一样

则哈希公式为 $H a s h (i) = H a s h (i - 1) * p + i d x (s i)$ ，其中 $p$ 为素数。其中乘P就相当于P进制下的左移运算。最终算出的 $H a s h (n)$ 作为该字符串(长度为n)的哈希值

如果我们已知字符串S的Hash值为 $H (S)$ ，字符串S+T的Hash值为 $H (S + T)$ ，那么字符串T的Hash值$ H ( T ) = H ( S + T ) − H ( S ) ∗ P l e n g t h ( T ) $。这就相当于通过 P 进制下在 S 后边补 0 的方式，把 S 左移到与 S + T 的左端对其，然后二者相减就得到了$ H(T)$

根据上面两种操作，我们可以通过O(N)的时间预处理字符串所有前缀Hash值，并在O(1)的时间内查询它的任意子串的Hash值

例如，字符串S=“abc”，字符串c=“d”，字符串T=“xyz”，则：
S表示为P进制数: 1 2 3（idx(x) = x−′a′+1）
$H ( S ) = 1 ∗ P ^ 2 + 2 ∗ P + 3$
$H ( S + c ) = 1 ∗P ^ 3 + 2 ∗P ^ 2 + 3 ∗P + 4 = H ( S ) ∗ P + 4$

S+T表示为P进制数: 1 2 3 24 25 26
$H(S+T) = 1*P^5+2*P^4+3*P^3+24*P^2+25*P+26$ \

S在P进制下左移length(T) 位: 1 2 3 0 0 0
二者相减就是T表示为P进制数: 24 25 26
$ H(T)=H(S+T)-(1P ^ 2+2 * P+3) * P ^ 3 = 24P^2+25*P+26 $

代码：

class Solution {

    int N = (int)1e5+10;
    int P = 131313;
    int[] h = new int[N];
    int[] p = new int[N];

    public List<String> findRepeatedDnaSequences(String s) {
        int n = s.length();
        List<String> ans = new ArrayList<>();
        p[0] = 1;
        for (int i = 1; i <= n; i++) {
            h[i] = h[i - 1] * P + s.charAt(i - 1);
            p[i] = p[i - 1] * P;
        }
        Map<Integer, Integer> map = new HashMap<>();
        for (int i = 1; i + 10 - 1 <= n; i++) {
            int j = i + 10 - 1;
            int hash = h[j] - h[i - 1] * p[j - i + 1];
            int cnt = map.getOrDefault(hash, 0);
            if (cnt == 1) ans.add(s.substring(i - 1, i + 10 - 1));
            map.put(hash, cnt + 1);
        }
        return ans;
    }
}