大整数判重
对于一个大整数,如果你需要判重,即知道一个数字是否已经出现过,如果这一个数值很小的话,我们可以直接用数组进行桶排,暴力用数组下标标记,这样十分简单的就能够知道一个数字是否已经出现过了。
但是如果一个数字的数值非常大,超出了数组所能够承受的空间大小,我们就需要使用Hash来进行解决。
对于一个数值,对它进行一大大整数取模,这一个取模的值就是这一个数字的哈希值。即: H a s h [ x ] = x m o d P , P ∈ p r i m e Hash[x]=x\ mod \ P,P∈prime Hash[x]=x mod P,P∈prime
P较大时因为避免某一个次数重复过多,对于大整数取模也可以保证重复的几率很小。
但是如果出现重复的话,我们可以使用像链表一样的思想,以 H a s h ( x ) Hash(x) Hash(x)为表头不断向后遍历即可。
字符串哈希
对于一个字符串,我们可以对每一个字符串每一个看成是一个 131 131 131进制或者 1331 1331 1331进制的数,这样的话冲突概率很低,我们只要将字符串按照数字的方法进行进制转换即可。
如果字符串s要求有没有和s相同的字符,则可以对一个在空间范围内的大质数取模,这样我们就可以和上面的整数一样用数组下标调用,并使用链表来解决。
对不需要下标调用的题目,我们可以直接用 C + + C++ C++中的 u n s i g n e d l o n g l o n g unsigned\ long\ long unsigned long long进行存储,相当于直接对 2 64 2^{64} 264取模,冲突概率即低且避免了低效的取模运算。
Hash的其他算法
对于一些奇奇怪怪的题目,所对应的Hash函数需要自己定义。
还有一个判重的方法就做现行探测法,就是如果当前这个数组有的话不断往后跳,直到有空位为止;本人认为这种方法不太自然,也没有链表直观,因此会以链表的方法为主。
当然空谈概念和理论也没有什么用,我们还是应该放到具体的题目中去解决。
Hash和Map、Set
STL中的Map和Set自带判重功能,但是在时间复杂度上需要乘上一个log,因为常数不是十分优秀;而hash则可以完美的实现O(1)处理,复杂度较小。
在很多题上,Hash可以用Map和Set水,但是必要的Hash算法还是必须要掌握的;但是Map和Set还是需要掌握的,因为可以起到节约时间、方便调用和减小代码量的作用。
集合的关系
给定两个集合A、B,集合内的任一元素x满足1 ≤ x ≤ 10^9,并且每个集合的元素个数不大于105105。我们希望求出A、B之间的关系。
给定两个集合的描述,判断它们满足下列关系的哪一种:
A是B的一个真子集,输出“A is a proper subset of B”
B是A的一个真子集,输出“B is a proper subset of A”
A和B是同一个集合,输出“A equals B”
A和B的交集为空,输出“A and B are disjoint”
上述情况都不是,输出“I’m confused!”
Solution
我们只要判断集合A的数是否在集合B中出现过,同理,判断集合B中的数是否再出现过,就能够十分简单的根据判断的结果十分迅速的得到答案。但是因为数字很大,所以我们就可以使用Hash算法来判断重复即可。
代码如下:
#include <bits/stdc++.h>
using namespace std;
int n,m;
bool f1,f2,f3;
const int P=999983;
const int N=1000000;
int a[N],b[N];
vector < int > h1[N],h2[N];
#define hash(x) (x%P)
void insertA(int x)
{
int val=hash(a[x]);
for (int i=0;i<h1[val].size();++i)
if (a[x]==h1[val][i]) return;
h1[val].push_back(a[x]);
}
void insertB(int x)
{
int val=hash(b[x]);
for (int i=0;i<h2[val].size();++i)
if (b[x]==h2[val][i]) return;
h2[val].push_back(b[x]);
}
bool check_AinB(int x)
{
int val=hash(a[x]);
for (int i=0;i<h2[val].size();++i)
if (a[x]==h2[val][i]) return f3=1;
return 0;
}
bool check_BinA(<