字符串hash的研究-CSDN博客

字符串哈希的研究

关于hash函数，其存在的理由就是让存入的数据得到好的立足之地（就像给存入的数据一个唯一的门牌号，我们就可以很容易的找到它所在地点），而且不让数据扎堆也是很重要的（而不是让数据扎堆，毕竟在一间几十上百号人的屋子找个人相对比较困难的）。

由此，hash函数应该，也必须要让数据“散开”，数据不必争房子住，如此冲突就少了，社会也就和谐了。

以下为hash设计历程：（一步一步、做足苦力啊！先贴代码，然后是自己的一点分析，再后是测试的统计数据）

设计1：

private int FirstHash(String str){
        char[] chars = str.trim().toCharArray();
        int hash = 0;
        int count = 0;
        int length = chars.length;
        while (count < length) {
                   hash = (int) chars[count] + (hash << 8) + (hash << 16);
                   count++;
        }
        return hash & 0x7FFFFFFF;
}

设计2：

while (count < length) {
         hash = (int) chars[count] + (hash << 8) + (hash << 16) – hash;
         count++;
}

设计3：（只改动了一个数据哦！！！）

while (count < length) {
          hash = (int) chars[count] + (hash << 7) + (hash << 16) – hash;
          count++;
}

设计4：

while (count < length) {
      hash = (int) chars[count] + (hash << 7) + (hash << 16) + (hash << 24) – hash;
      count++;
}

附：hashSet、hashMap的哈希函数（以便比较）

private int SystemHash(String s) {
      int hash = s.hashCode();
      hash ^= (hash >>> 20) ^ (hash >>> 12);
      return (hash ^ (hash >>> 7) ^ (hash >>> 4));
}

必须说明：现在只测试“英文单词”为存入的数据对象。

分析：

刚开始想到设计1是根据字符的二进制编码的。Java中char型数据是2 byte。但想到超过ASCLL值256的char型数据没法手工输入（我试了一下，char型数据超过256的都打印个“?”），最常用的英文单词实际上就是char数组，每个字母必不超过256。说了这么多，只想说明此时一个字母虽然是2 byte，但是变成二进制的话只有低8位存数据，高8位就都是 0 了。