1. 采用hash方法,size要是一个大质数。这样可以减少碰撞。
2. hash函数从discuss摘抄如下:
1. 直接相加, 把(总和%大质数)为key.
2. 平方和相加, 把(总和%大质数)为key.
3. 从小到大的顺序, 对v[i]<<(i*3)依次异或, 然后模一个大质数作为key.(by hust07p43)
4. 六个数中非零数的积再乘上一个大质数,然后模一个100w上下的数。
自己拿随机数据测下来110w左右的效果最好,随机情况下数据量是10w的时候hash值相同的情况只有6k多个,几乎可以忽略。(by killertom)
5. 依次对每个数异或所得的数作为key. (by archerstarlee)
6. (a[0] + a[2] + a[4])&(a[1] + a[3] + a[5]), 再模一个大质数. 中间的&还可以改成'|' 或者'^'.非常巧妙! 我采用'^'得到最快的719ms. (只对本题适用的hash方法)
3. 对于碰撞,采用开放地址法较好,因为拉链法不仅有指针开销,而且new的速度很慢。
4. 由于hash数组要比源数据开的大,因此可以把源数据开数组保存下来,让hash数组只存源数组的index,这样hash数组类型是int就可以了,而不必是struct,从而节省了大量空间。
5. 不采用hash方法,直接把源数据用struct保存下来,然后写一个cmp方法,在里面记录了相等条件,这样利用sort方法,也可以判断出来。由于不需要hash数组,占用空间很小。令人惊讶的是,g++下编译后速度比用hash的快了近3倍。
#include<stdio.h>
#include<algorithm>
using namespace std;
#define N 1000003
typedef struct Node{
int v[6];
bool h;
}Node;
int a[6],n,h,jump;
Node nodes[N];
bool res;
int main(){
for(int i=0;i<N;i++)
nodes[i].h=false;
res=false;
scanf("%d",&n);
while(n--){
scanf("%d%d%d%d%d%d",&a[0],&a[1],&a[2],&a[3],&a[4],&a[5]);
if(res)
continue;
sort(a,a+6);
h=((a[0]+a[2]+a[4])|(a[1]+a[3]+a[5]))%N;
if(nodes[h].h==false){
for(int i=0;i<6;i++){
nodes[h].v[i]=a[i];
}
nodes[h].h=true;
}else{
jump=1;
while(nodes[h].h==true){
res=true;
for(int i=0;i<6;i++){
if(nodes[h].v[i]!=a[i]){
res=false;
break;
}
}
if(res){
break;
}
h=(h+jump*jump)%N;
jump++;
}
if(!res){
for(int i=0;i<6;i++){
nodes[h].v[i]=a[i];
}
nodes[h].h=true;
}
}
}
if(res){
printf("%s","Twin snowflakes found.\n");
}else{
printf("%s","No two snowflakes are alike.\n");
}
return 0;
}