今天在LintCode上做了一道关于哈希函数的题目,感受到了数学思维在编程中的重要性,不多说,上题:
题目
在数据结构中,哈希函数是用来将一个字符串(或任何其他类型)转化为小于哈希表大小且大于等于零的整数。一个好的哈希函数可以尽可能少地产生冲突。一种广泛使用的哈希函数算法是使用数值33,假设任何字符串都是基于33的一个大整数,比如:
hashcode(“abcd”)
= (ascii(a) * 333 + ascii(b) * 332 + ascii(c) *33 + ascii(d)) % HASH_SIZE
= (97* 333 + 98 * 332 + 99 * 33 +100) % HASH_SIZE
= 3595978 % HASH_SIZE
其中HASH_SIZE表示哈希表的大小(可以假设一个哈希表就是一个索引0 ~ HASH_SIZE-1的数组)。
给出一个字符串作为key和一个哈希表的大小,返回这个字符串的哈希值。
我的劣质解答:
public static int hashCode2(char[] key,int HASH_SIZE) {
long ans = 0;
for(int i = 0; i < key.length;i++) {
ans += (int)key[i]*Math.pow(33, key.length-i-1); //不同
}
return (int)(ans%HASH_SIZE);//不同
}
优秀解答:
public int hashCode(char[] key,int HASH_SIZE) {
long ans = 0;
for(int i = 0; i < key.length;i++) {
ans = (ans * 33 + (int)(key[i])) % HASH_SIZE;
}
return (int)ans;
}
思路对比:
i=33,a…z代表char[] key,H代表HASH_SIZE
1. 我的解答
单纯按照算法字面描述的逻辑设计,即:
hashCode=(ain−1+bin−2+...+xi2+yi+z)%H h a s h C o d e = ( a i n − 1 + b i n − 2 + . . . + x i 2 + y i + z ) % H
就是先求和,再取余这样做的问题就是如果key长度特别长的时候很容易就造成数字大小越界,一开始我用了long,后来发现当输入26字母表的时候就不对了(abc..xyz),因为33的26次方已经远远超出long的最大值
264
2
64
了,所以就会出问题。
2. 优质解答
对多项式进行了处理,
hashCode=((ai+b)∗i%H+c)∗i%H)...)+d h a s h C o d e = ( ( a i + b ) ∗ i % H + c ) ∗ i % H ) . . . ) + d
这样看比较不容易懂,举个例子,下边两个多项式是等价的:
ai4+bi3+c2+d=(((ai+b)∗i+c)∗i)+d a i 4 + b i 3 + c 2 + d = ( ( ( a i + b ) ∗ i + c ) ∗ i ) + d
然后取余数
(ai4+bi3+c2+d)%H=((((ai+b)∗i+c)∗i)+d)%H ( a i 4 + b i 3 + c 2 + d ) % H = ( ( ( ( a i + b ) ∗ i + c ) ∗ i ) + d ) % H
为了使右边多项式每次计算都能够保证不越界,变形为:
((((ai+b)∗i+c)∗i)+d)%H=((((ai+b)∗i%H+c)∗i%H)+d)%H ( ( ( ( a i + b ) ∗ i + c ) ∗ i ) + d ) % H = ( ( ( ( a i + b ) ∗ i % H + c ) ∗ i % H ) + d ) % H
在每一次计算后都取余,然后和传给下一次计算做累加处理。这样就能保证每次计算后的值都能够保持在一个较小的数了,是不是很妙啊!
以上。
总结:
这个真题,在可接受的范围内刺激了我的智商,虽然我知道应该找个办法控制每一项不越界,但对多项式变形这种简单的数学操作已经许久没有接触的我来说,是想了很久都没有想通。
数学真的很伟大也很奇妙啊,最关键的是它带来的成就感比代码运行成功有过之而无不及。继续努力!