一道题帮你理解【字符串哈希】算法

本文借鉴宫水三叶的刷题笔记

本文通过 Leetcode 187. 重复的DNA序列 这道题来介绍字符串哈希算法,附带源码

题目描述

所有 DNA 都由一系列缩写为 ‘A’,‘C’,‘G’ 和 ‘T’ 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。

编写一个函数来找出所有目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。

Example 1:

Input: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
Output: ["AAAAACCCCC","CCCCCAAAAA"]

Example 2:

Input: s = "AAAAAAAAAAAAA"
Output: ["AAAAAAAAAA"]

Constraints:

  • 1 <= s.length <= 105
  • s[i] is either 'A', 'C', 'G', or 'T'.

思路一:滑动窗口 + 哈希表

数据范围只有 10 ^ 5 ,一个朴素的想法是:从左到右处理字符串 ,使用滑动窗口得到每个以 s [ i ] s[i] s[i] 为结尾且长度为 10 10 10 的子串,同时使用哈希表记录每个子串的出现次数,如果该子串出现次数超过一次,则加入答案。

为了防止相同的子串被重复添加到答案,而又不使用常数较大的 Set 结构。我们可以规定:当且仅当该子串在之前出现过一次(加上本次,当前出现次数为两次)时,将子串加入答案。

class Solution {
    public List<String> findRepeatedDnaSequences(String s) {
        List<String> ans = new ArrayList<>();
        int n = s.length();
        Map<String, Integer> map = new HashMap<>();
        for (int i = 0; i + 10 <= n; i++) {
            String cur = s.substring(i, i + 10);
            int cnt = map.getOrDefault(cur, 0);
            if (cnt == 1) ans.add(cur);
            map.put(cur, cnt + 1);
        }
        return ans;
    }
}
  • 时间复杂度: O ( n × C ) O(n \times C) O(n×C) n n n 为字符串长度, C C C 为子串长度 10

  • 空间复杂度: O ( n ) O(n) O(n)

字符串最多长度为 10 ^ 5,子串长度为 10 10 10,因此上述解法的计算量为 10 ^ 6。

若题目给定的子串长度大于 100 100 100 时,那么计算量将超过 10 ^ 7 ,会 T L E TLE TLE

因此一个能够做到严格 O ( n ) O(n) O(n) 的做法是使用「字符串哈希 + 前缀和」

思路二:字符串哈希 + 前缀和

说得通俗一点,字符串哈希实质上就是把每个不同的字符串转成不同的整数

一般地,给定一个字符串 S = s 1 s 2 s 3 s 4... s n S=s1s2s3s4...sn S=s1s2s3s4...sn,令 i d x ( x ) = x − ′ a ′ + 1 idx(x)=x−′a′+1 idx(x)=xa+1,当然,直接 ( i n t ) x (int)x (int)x(用它的ASCll码)也一样

则哈希公式为 H a s h ( i ) = H a s h ( i − 1 ) ∗ p + i d x ( s i ) Hash(i)=Hash(i-1)*p+idx(si) Hash(i)=Hash(i1)p+idx(si),其中 p p p 为素数。其中乘P就相当于P进制下的左移运算。最终算出的 H a s h ( n ) Hash(n) Hash(n)作为该字符串(长度为n)的哈希值

如果我们已知字符串S的Hash值为 H ( S ) H(S) H(S),字符串S+T的Hash值为 H ( S + T ) H ( S + T) H(S+T),那么字符串T的Hash值$ H ( T ) = H ( S + T ) − H ( S ) ∗ P l e n g t h ( T ) 。 这 就 相 当 于 通 过 P 进 制 下 在 S 后 边 补 0 的 方 式 , 把 S 左 移 到 与 S + T 的 左 端 对 其 , 然 后 二 者 相 减 就 得 到 了 。这就相当于通过P进制下在S后边补0的方式,把S左移到与S+T的左端对其,然后二者相减就得到了 PS0SS+TH(T)$

根据上面两种操作,我们可以通过O(N)的时间预处理字符串所有前缀Hash值,并在O(1)的时间内查询它的任意子串的Hash值

例如,字符串S=“abc”,字符串c=“d”,字符串T=“xyz”,则:
S表示为P进制数: 1 2 3(idx(x) = x−′a′+1)
H ( S ) = 1 ∗ P 2 + 2 ∗ P + 3 H ( S ) = 1 ∗ P ^ 2 + 2 ∗ P + 3 H(S)=1P2+2P+3
H ( S + c ) = 1 ∗ P 3 + 2 ∗ P 2 + 3 ∗ P + 4 = H ( S ) ∗ P + 4 H ( S + c ) = 1 ∗P ^ 3 + 2 ∗P ^ 2 + 3 ∗P + 4 = H ( S ) ∗ P + 4 H(S+c)=1P3+2P2+3P+4=H(S)P+4

S+T表示为P进制数: 1 2 3 24 25 26
H ( S + T ) = 1 ∗ P 5 + 2 ∗ P 4 + 3 ∗ P 3 + 24 ∗ P 2 + 25 ∗ P + 26 H(S+T) = 1*P^5+2*P^4+3*P^3+24*P^2+25*P+26 H(S+T)=1P5+2P4+3P3+24P2+25P+26\

S在P进制下左移length(T) 位: 1 2 3 0 0 0
二者相减就是T表示为P进制数: 24 25 26
$ H(T)=H(S+T)-(1P ^ 2+2 * P+3) * P ^ 3 = 24P^2+25*P+26 $

代码:

class Solution {

    int N = (int)1e5+10;
    int P = 131313;
    int[] h = new int[N];
    int[] p = new int[N];

    public List<String> findRepeatedDnaSequences(String s) {
        int n = s.length();
        List<String> ans = new ArrayList<>();
        p[0] = 1;
        for (int i = 1; i <= n; i++) {
            h[i] = h[i - 1] * P + s.charAt(i - 1);
            p[i] = p[i - 1] * P;
        }
        Map<Integer, Integer> map = new HashMap<>();
        for (int i = 1; i + 10 - 1 <= n; i++) {
            int j = i + 10 - 1;
            int hash = h[j] - h[i - 1] * p[j - i + 1];
            int cnt = map.getOrDefault(hash, 0);
            if (cnt == 1) ans.add(s.substring(i - 1, i + 10 - 1));
            map.put(hash, cnt + 1);
        }
        return ans;
    }
}

我猜你问

  1. 字符串哈希的「构造 p p p 数组」和「计算哈希」的过程,不会溢出吗?

会溢出,溢出就会变为负数,当且仅当两个哈希值溢出程度与 Integer.MAX_VALUE 呈不同的倍数关系时,会产生错误结果(哈希冲突),此时考虑修改 P P P 或者采用表示范围更大的 long 来代替 int

  1. 131313这个数字是怎么来的?

试出来的

字符串哈希本身存在哈希冲突的可能,一般会在尝试 131 之后尝试使用 13131 ,然后再尝试使用比 13131 更大的质数。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值