字符串hash是指将一个字符串s映射为一个整数,使得该整数可以尽可能唯一地代表字符串s。
大致用途:
- 判断两个字符串是否相等(字符串匹配问题);
- 判断一个字符串是否曾经出现过(字符串判重问题);
字符串哈希模板(进制哈希)
字符串hash还有一方面优点,就是它可以处理子串信息。
typedef unsigned long long ull;//溢出会自动取余
const int maxn = 1e5+5;
struct hash_table {
const ull base = 131;//13331
ull Hash[maxn], p[maxn];
void init (char *s, int len) { //处理hash值,注意字符串从1开始读入,len = strlen(s+1)
p[0]=1, Hash[0]=0;
for (int i = 1; i <= len; i++) p[i] = p[i-1] * base;
for (int i = 1; i <= len; i++) Hash[i] = Hash[i-1] * base + (s[i] - 32);
}
ull get (int l ,int r) { //获得字符串s的某段子串 s[l~r] 的 hash 值
return Hash[r] - Hash[l-1] * p[r-l+1];
}
}HASH;
自然溢出法减少hash冲突:
这种方法是利用unsigned long long的范围自然溢出:即当存储的数据大于unsigned long long的存储范围时,会自动mod 264−1,就不用mod其他质数来保证唯一性了。
双模数哈希或双进制哈希
为了增加准确率,我们可以对一个字符串进行两次(或者多次)不同的hash,只有所有的哈希值都相同的时候,我们才将两个字符串看成是相等的字符串。虽然这样会增加时间和空间的开销,但是可以明显的提高我们的准确率。
hdu4300 Clairewd’s message
题意难懂,,大致题意如下:
给定一个26个字母的字符串str,为密文转换表,表示26个字母分别对应的密文字母。
给定一个字符串s1,为截取到的信息,信息=密文+部分原文。(密文是完整的,而原文可能存在缺损)
现要求补全原文,输出尽可能短的补全后的信息。
题解
有两种做法:字符串哈希和扩展kmp。。。下面说一说字符串哈希~
将所给定截取到的信息s1(密文+部分原文)根据转换表str转换为s2(原文+部分密文)。
然后将s1、s2两个字符串hash,若一段字符相等则对应段的hash值也相等。
因为密文是完整的,所以可以确定给定的字符串s1起码一半是密文。
所以可通过判断s1中原文段ret+1~ len的字符段哈希值和s2中1 ~ len-ret 的字符段哈希值相等,进而找到密文和原文的分界位置ret。
#include<cstdio>
#include<cstring>
using namespace std;
typedef unsigned long long ull;
const int maxn = 1e5+5;
struct hash_table {
const ull base = 163;
ull Hash[maxn], p[maxn];
void init (char *s, int len) {
p[0]=1, Hash[0]=0;
for (int i = 1; i <= len; i++) p[i] = p[i-1] * base;
for (int i = 1; i <= len; i++) Hash[i] = Hash[i-1] * base + (s[i] - 32);
}
ull get (int l ,int r) {
return Hash[r] - Hash[l-1] * p[r-l+1];
}
}h1,h2;
int main()
{
int T; scanf("%d", &T);
while (T--) {
char s1[maxn] = {}, s2[maxn] = {};
char str[27] = {}, book[27] = {};
scanf("%s%s", str, s1+1);
int len = strlen(s1+1);//字符串从1开始
for (int i = 0; i < 26; i++) book[str[i] - 'a'] = i + 'a';
for (int i = 1; i <= len; i++) s2[i] = book[s1[i] - 'a'];
h1.init(s1, len), h2.init(s2, len);
int ret = len;
for (int i = len; i <= len * 2; i++) {
if (i & 1) continue;
int mid = i / 2; //密文和原文的分界位置
ull b1 = h1.get(mid + 1, len);
ull b2 = h2.get(1, len-mid);
if (b1 == b2) { ret = mid; break; }
}
for (int i = 1; i <= ret; i++) printf("%c", s1[i]);
for (int i = 1; i <= ret; i++) printf("%c", s2[i]);
puts("");
}
return 0;
}