字符串算法学习笔记（二）：字符串哈希

crystallinum

已于 2023-08-05 18:39:44 修改

阅读量128

点赞数

文章标签：哈希算法算法学习

于 2023-08-05 18:33:00 首次发布

本文链接：https://blog.csdn.net/crystallinum/article/details/132122561

版权

核心思想

考虑定义一个函数 $f$ ，从字符串映射到整数。并且我们希望这个函数 $f$ 可以在某些方面上帮助我们。
比如：快速判断两个字符串是否相等？
对于任意两个字符串 $s_1$ 和 $s_2$ ，哈希函数 $f$ 具有如下性质：

若 $f(s_1) \neq f(s_2)$ ，则 $s_1 \neq s_2$ ；
若 $f(s_1) \neq f(s_2)$ ，则大概率可能 $s_1 = s_2$ ，但若此时 $s_1 \neq s_2$ ，则称哈希函数 $f$ 在 $s_1$ 和 $s_2$ 上出现了哈希碰撞（简称碰撞）。（当然我们总是希望不出现哈希碰撞。）

经典哈希函数

朴素的算法

通常使用的哈希函数
$\sum_{i-1}^n s[i] \times b^{n-i} \pmod M$
其中， $b$ 为任意正整数， $M$ 为一个大素数（ $\ge |\Sigma|$ ）。
代码实现（效率低下版本，但是我好像不会其他写法了 T-T）：

#include <bits/stdc++.h>
using namespace std;
typedef long long ll;
const int M=998244353;
const int b=233;
int h(const string &s)
{
	int res=0;
	for (int i=0;i<=s.length()-1;i++)
	{
		res=((ll)res*b+s[i])%M;
	}
	return res;
}
bool cmp(const string &s1,const string &s2)
{
	return h(s1)==h(s2);
}

减少碰撞？

根据公式，我们可以得到哈希函数 $h (s)$ 的值域为 $[0, M - 1]$ ，大小为 $M$ 。假定我们现在一共有 $n$ 个字符串，则不出现哈希碰撞的概率为：
$P=\prod_{i=0}^{n-1} \frac{M - i}{M}$
代入数据， $M = 998244353, n=10^6$ ，在随机数据下表现优秀。
但倘若我们为了更加安全，可是使用双哈希的技术，也就是对两个模数分别取模，这样的话可以扩大 $h (s)$ 的值域，减少出现碰撞的概率。

加速？

单次计算哈希函数的时间复杂度为 $O (n)$ （ $n$ 为字符串长度），与暴力计算无异。当我们需要多次计算哈希函数时，这种算法的效率便显得低下。
一般考虑采取计算前缀的方法（此处 $s$ 为 $1$ 开头）。我们考虑计算 $\cdots i])$ 的值，按照定义有：
$\cdots i]) = s[1] \times b^{i-1} + s[1] \times b^{i-2} + \cdots + s[i - 1] \times b + s[i] \pmod M$
类似于前缀和，我们考虑计算 $\cdots r])$ 的值。易得：
$\cdots r]) = s[l] \times b^{r - l} + s[l + 1] \times b^{r - l - 1} + \cdots + s[r-1] \times b + s[r] \pmod M$
观察一下，得到：
$\cdots r]) = h(s[1 \cdots r]) - h(s[1 \cdots l-1])\times b^{r-l+1}$
由此，我们可以 $O (n)$ 地预处理出 $b^{r-l+1}$ 的值，查询哈希值时 $O (1)$ 根据公式计算即可。

应用

允许 $k$ 次失配的字符串匹配

给定长为 $n$ 的文本串 $s$ 和长为 $m$ 的模式串 $p$ ，求出 $s$ 中有多少子串与 $p$ 匹配。注意：在本题中，我们称 $s^{'}$ 和 $s$ 匹配，当且仅当 $∣ s^{'} ∣ = ∣ s ∣$ 且至多有 $k$ 个字符不同。其中 $\le n,m \le 10^6, 0 \le k \le 5$ 。
考虑使用哈希 + 二分解决。我们枚举所有可能匹配的子串 $s^{'}$ ，通过哈希 + 二分快速找到 $s^{'}$ 与 $p$ 失配的第一个位置，之后删除 $s^{'}$ 以及 $p$ 在失配位置之前的字符串，继续查找下一个失配位置。这个过程至多发生 $k$ 次。
时间复杂度 $\log m)$ 。

最长公共子串

给定 $m$ 个长度为 $n$ 的字符串，求出所有字符串的最长公共子串，若有多个，任意输出其中一个。其中 $\le m,n \le 10^6$ 。
子串具有一个递推性质。即如果长度为 $x$ 的公共子串存在，则长度为 $x - 1$ 的公共子串一定存在。由此我们可以二分所求子串的长度，假设当前长度为 $c u r$ ，则 check(cur) 的逻辑就是所有字符串的所有长度为 $c u r$ 的子串进行哈希，然后放入 $n$ 个不同的哈希表中，最后求交集。
时间复杂度 $\log \frac{n}{m})$ 。

crystallinum

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符串算法学习笔记（二）：字符串哈希

但倘若我们为了更加安全，可是使用双哈希的技术，也就是对两个模数分别取模，这样的话可以扩大。为字符串长度），与暴力计算无异。当我们需要多次计算哈希函数时，这种算法的效率便显得低下。的字符串，求出所有字符串的最长公共子串，若有多个，任意输出其中一个。由此我们可以二分所求子串的长度，假设当前长度为。在失配位置之前的字符串，继续查找下一个失配位置。的逻辑就是所有字符串的所有长度为。根据公式，我们可以得到哈希函数。个不同的哈希表中，最后求交集。的值域，减少出现碰撞的概率。失配的第一个位置，之后删除。
复制链接

扫一扫