哈希表

本文介绍了哈希表作为一种高效的数据结构,用于存储和查询大量数据。通过哈希函数将大范围数值映射到固定大小的数组,并处理冲突,实现快速的添加、查找和删除操作。开放寻址法和拉链法是常见的冲突解决策略。此外,还讲解了字符串哈希,通过特定的哈希函数将字符串转化为唯一的数值,便于快速比较。预处理哈希值可以有效计算子串哈希,提高字符串处理效率。
摘要由CSDN通过智能技术生成

哈希表

存储结构

把一堆复杂的数映射到从 0 ∼ n ( 0 ≤ n ≤ 1 0 5 ∼ 6 ) 0 \sim n (0\le n\le 10^{5\sim 6}) 0n(0n1056)

e . g . e.g. e.g. 把从 0 ∼ 1 0 9 0\sim 10^9 0109 的这样一堆数映射到从 0 ∼ 1 0 5 0\sim 10^5 0105 大小的数据结构中,在一个比较大的值域中选择一些数插入,选择一些数查询

  1. 哈希函数: x m o d    1 0 5 x\mod{10^5} xmod105 这样 x x x 的范围就在 0 ∼ 1 0 5 0\sim 10^5 0105 之间了 (注意:模数一定要是质数,并且要离 2 2 2 的整数次幂尽可能远)
  2. 处理冲突(把两个不一样的数映射成了同一个数)
  3. 注:离散化是及其特殊的哈希方式 h ( x ) h(x) h(x) 要单调递增

两种哈希方法

  1. 开放寻址法

  2. 拉链法:将冲突的数形成一条链

操作:添加、查找、删除(打一个标记标记它被删除)

时间复杂度

哈希表是一种期望算法,每一条链的长度可以看成常数,所以一般而言,哈希函数的时间复杂度都比较好 O ( 1 ) O(1) O(1)

Code

#include <bits/stdc++.h>
using namespace std;
typedef long long ll;
typedef pair<int, int> PII;
#define debug(a) cout << #a << " " << a << endl
const int maxn = 1e5 + 7;
const int N = 100003, M = N * 2;
const int inf = 0x3f3f3f3f;
const long long mod = 1e9 + 7;

int h[N], e[N], ne[N], idx;

void insert(int x) {
	//为了保证k是一个正数k的值要加上 N N取大于100000的第一个质数 -> 由数据范围得出
	int k = (x % N + N) % N; //k是哈希值
	e[idx] = x, ne[idx] = h[k], h[k] = idx++;
}

bool find(int x) {
	int k = (x % N + N) % N;
	for(int i = h[k]; i != -1; i = ne[i]) {
		int j = e[i];
		if(j == x) {
			return true;
		}
	}
	return false;
}

int main() {

//	freopen("input.txt", "r", stdin);
//	freopen("output.txt", "w", stdout);

//	ios::sync_with_stdio(false);
	memset(h, -1, sizeof h);
	int n;
	scanf("%d", &n);
	for(int i = 1; i <= n; i++) {
		char op[2];
		int x;
		scanf("%s%d", op, &x);

		if(op[0] == 'I') insert(x);
		else {
			if(find(x)) puts("Yes");
			else puts("No");
		}

	}


	return 0;
}

一个常用的字符串哈希方式

定义 h ( x ) h(x) h(x) 表示前 x x x 个字符的哈希值

  1. 把这个字符串看成是一个 p p p 进制的数
  2. 通过等式变形把 p p p 进制的数变成 10 10 10 进制的数,最后对整个数 m o d    Q \mod{Q} modQ
  3. 这样就把任何一个字符串映射到从 0 ∼ Q − 1 0\sim Q-1 0Q1 之间的一个数

注意

  1. 不能映射成数字 0
  2. 字符串哈希假定了不存在冲突,不考虑冲突的问题,哈希的经验值:当 p = 131 / 13331 p=131/13331 p=131/13331 时, Q = 2 64 Q=2^{64} Q=264 ,在一般情况下不会出现冲突

优势

利用求得的前缀哈希用一个公式计算所有子段的哈希值

例子

假设有 ∣ S ∣ = 5 |S|=5 S=5 的字符串,设 S i S_i Si 为第 i i i 个字符,其中 1 ≤ i ≤ 5 1≤i≤5 1i5

根据定义分别求出hash[i]

h a s h [ 1 ] = s 1 hash[1]=s1 hash[1]=s1
h a s h [ 2 ] = s 1 ∗ p + s 2 hash[2]=s1∗p+s2 hash[2]=s1p+s2
h a s h [ 3 ] = s 1 ∗ p 2 + s 2 ∗ p + s 3 hash[3]=s1∗p2+s2∗p+s3 hash[3]=s1p2+s2p+s3
h a s h [ 4 ] = s 1 ∗ p 3 + s 2 ∗ p 2 + s 3 ∗ p + s 4 hash[4]=s1∗p3+s2∗p2+s3∗p+s4 hash[4]=s1p3+s2p2+s3p+s4
h a s h [ 5 ] = s 1 ∗ p 4 + s 2 ∗ p 3 + s 3 ∗ p 2 + s 4 ∗ p + s 5 hash[5]=s1∗p4+s2∗p3+s3∗p2+s4∗p+s5 hash[5]=s1p4+s2p3+s3p2+s4p+s5

现在我们想求s3s4hash值,不难得出为s3∗p+s4,并且从上面观察,如果看hash[4]−hash[2]并将结果种带有s1,s2系数的项全部消掉,就是所求。但是由于p的阶数,不能直接消掉,所以问题就转化成,将hash[2]乘一个关于p的系数,在做差的时候将多余项消除,从而得到结果。

不难发现,对应项系数只差一个p2,而4 - 3 + 1 = 2(待求hash子串下标相减再加一),这样就不难推导出来此例题的求解式子。

hash[4]−hash[2]∗p4−2+1
至此,通过对上例的归纳,可以得出如下的公式。

公式
若已知一个 ∣ S ∣ = n |S|=n S=n 的字符串的hash值, h a s h [ i ] , 1 ≤ i ≤ n hash[i],1≤i≤n hash[i],1in,其子串 s l . . s r , 1 ≤ l ≤ r ≤ n sl..sr,1≤l≤r≤n sl..sr,1lrn 对应的hash值为:

h a s h = h a s h [ r ] − h a s h [ l − 1 ] × p r − l + 1 hash=hash[r]−hash[l−1]\times p^{r−l+1} hash=hash[r]hash[l1]×prl+1

考虑到 h a s h [ i ] hash[i] hash[i] 每次对 p p p 取模,进一步得到下面的式子:

h a s h = ( h a s h [ r ] − h a s h [ l − 1 ] × p r − l + 1 ) m o d    M O D hash=(hash[r]−hash[l−1]\times p^{r−l+1})\mod{MOD} hash=(hash[r]hash[l1]×prl+1)modMOD

看起来这个式子人畜无害,但是对于取模运算要谨慎再谨慎,注意到括号里面是减法,即有可能是负数,故做如下的修正:

h a s h = ( ( h a s h [ r ] − h a s h [ l − 1 ] × p r − l + 1 ) m o d    M O D + M O D ) m o d    M O D hash=((hash[r]−hash[l−1]\times p^{r−l+1})\mod{MOD}+MOD)\mod{MOD} hash=((hash[r]hash[l1]×prl+1)modMOD+MOD)modMOD

至此得到求子串hash值公式。

值得一提的是,如果需要反复对子串求解hash值,预处理 p p p n n n 次方效果更佳。

Code

#include <bits/stdc++.h>
using namespace std;
typedef long long ll;
typedef unsigned long long ull;
typedef pair<int, int> PII;
#define debug(a) cout << #a << " " << a << endl
const int maxn = 1e5 + 7;
const int N = 1e6 + 7, M = N * 2,P = 131;
const int inf = 0x3f3f3f3f;
const long long mod = 1e9 + 7;
inline long long read();

int n, m;
char str[N];
ull h[N], p[N]; //p数组存储p的多少次方

// 使用ull存储 因为ull正好最大值为2的64次方相当于取模
ull get(int l, int r) {
	return h[r] - h[l - 1] * p[r - l + 1];
}

int main() {

//	freopen("input.txt", "r", stdin);
//	freopen("output.txt", "w", stdout);

//	ios::sync_with_stdio(false);
	scanf("%d%d%s", &n, &m, str + 1);

	p[0]=1;
	for(int i = 1; i <= n; i++) {
		p[i] = p[i - 1] * P; //预处理 p 的次幂
		h[i] = h[i - 1] * P + str[i];//字符串前缀数组 
	}

	while(m--) {
		int l1, r1, l2, r2;
		scanf("%d%d%d%d", &l1, &r1, &l2, &r2);

		if(get(l1, r1) == get(l2, r2)) {
			puts("Yes");
		} else {
			puts("No");
		}
	}

	return 0;
}


/*
数组开够了吗 开到上界的n+1次方
初始化了吗
*/







inline ll read() {
	char ch = getchar();
	ll p = 1, data = 0;
	while(ch < '0' || ch > '9') {
		if(ch == '-')p = -1;
		ch = getchar();
	}
	while(ch >= '0' && ch <= '9') {
		data = data * 10 + (ch ^ 48);
		ch = getchar();
	}
	return p * data;
}






  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值