Clairewd’s message（字符串哈希）

Layne...

于 2020-03-10 23:44:15 发布

阅读量346

点赞数

分类专栏：题解算法

本文链接：https://blog.csdn.net/hollay/article/details/104783203

版权

题解同时被 2 个专栏收录

27 篇文章 0 订阅

订阅专栏

算法

4 篇文章 0 订阅

订阅专栏

字符串hash是指将一个字符串s映射为一个整数，使得该整数可以尽可能唯一地代表字符串s。

大致用途：

判断两个字符串是否相等（字符串匹配问题）；
判断一个字符串是否曾经出现过（字符串判重问题）；

字符串哈希模板（进制哈希）

字符串hash还有一方面优点，就是它可以处理子串信息。

typedef unsigned long long ull;//溢出会自动取余
const int maxn = 1e5+5;
struct hash_table {
	const ull base = 131;//13331
	ull Hash[maxn], p[maxn];
	void init (char *s, int len) { //处理hash值，注意字符串从1开始读入，len = strlen(s+1)
		p[0]=1, Hash[0]=0;
		for (int i = 1; i <= len; i++) p[i] = p[i-1] * base;
		for (int i = 1; i <= len; i++) Hash[i] = Hash[i-1] * base + (s[i] - 32);
	}
	ull get (int l ,int r) { //获得字符串s的某段子串 s[l~r] 的 hash 值
		return Hash[r] - Hash[l-1] * p[r-l+1];
	}
}HASH;

自然溢出法减少hash冲突：

这种方法是利用unsigned long long的范围自然溢出：即当存储的数据大于unsigned long long的存储范围时，会自动mod 2⁶⁴−1，就不用mod其他质数来保证唯一性了。

双模数哈希或双进制哈希

为了增加准确率，我们可以对一个字符串进行两次（或者多次）不同的hash，只有所有的哈希值都相同的时候，我们才将两个字符串看成是相等的字符串。虽然这样会增加时间和空间的开销，但是可以明显的提高我们的准确率。

字符串Hash总结

hdu4300 Clairewd’s message

在这里插入图片描述
题意难懂，，大致题意如下：

给定一个26个字母的字符串str，为密文转换表，表示26个字母分别对应的密文字母。
给定一个字符串s1，为截取到的信息，信息=密文+部分原文。（密文是完整的，而原文可能存在缺损）
现要求补全原文，输出尽可能短的补全后的信息。

题解

有两种做法：字符串哈希和扩展kmp。。。下面说一说字符串哈希~

将所给定截取到的信息s1(密文+部分原文)根据转换表str转换为s2(原文+部分密文)。
然后将s1、s2两个字符串hash，若一段字符相等则对应段的hash值也相等。
因为密文是完整的，所以可以确定给定的字符串s1起码一半是密文。
所以可通过判断s1中原文段ret+1~ len的字符段哈希值和s2中1 ~ len-ret 的字符段哈希值相等，进而找到密文和原文的分界位置ret。

#include<cstdio>
#include<cstring>
using namespace std;
typedef unsigned long long ull;
const int maxn = 1e5+5;
struct hash_table {
	const ull base = 163;
	ull Hash[maxn], p[maxn];
	void init (char *s, int len) {
		p[0]=1, Hash[0]=0;
		for (int i = 1; i <= len; i++) p[i] = p[i-1] * base;
		for (int i = 1; i <= len; i++) Hash[i] = Hash[i-1] * base + (s[i] - 32);
	}
	ull get (int l ,int r) {
		return Hash[r] - Hash[l-1] * p[r-l+1];
	}
}h1,h2;
int main()
{
	int T; scanf("%d", &T);
	while (T--) {
		char s1[maxn] = {}, s2[maxn] = {};
		char str[27] = {}, book[27] = {};
		scanf("%s%s", str, s1+1);
		int len = strlen(s1+1);//字符串从1开始
		for (int i = 0; i < 26; i++) book[str[i] - 'a'] = i + 'a';
		for (int i = 1; i <= len; i++) s2[i] = book[s1[i] - 'a'];
		h1.init(s1, len), h2.init(s2, len);
		int ret = len;
		for (int i = len; i <= len * 2; i++) {
			if (i & 1) continue;
			int mid = i / 2; //密文和原文的分界位置
			ull b1 = h1.get(mid + 1, len);
			ull b2 = h2.get(1, len-mid);
			if (b1 == b2) { ret = mid; break; }
		}
		for (int i = 1; i <= ret; i++) printf("%c", s1[i]);
		for (int i = 1; i <= ret; i++) printf("%c", s2[i]);
		puts("");
	}
	return 0;
}

Layne...

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Clairewd’s message（字符串哈希）

字符串hash是指将一个字符串s映射为一个整数，使得该整数可以尽可能唯一地代表字符串s。自然溢出法减少hash冲突：这种方法是利用unsigned long long的范围自然溢出：即当存储的数据大于unsigned long long的存储范围时，会自动mod 264−1，就不用mod其他质数来保证唯一性了。字符串哈希模板typedef unsigned long long ull;//...
复制链接

扫一扫

专栏目录