散列(hash table)

最新推荐文章于 2024-11-15 22:36:59 发布

原创最新推荐文章于 2024-11-15 22:36:59 发布 · 338 阅读

0 ·

CC 4.0 BY-SA版权

概念

理想中散列就是一个包含一些项的具有固定大小的数组。只不过数组中各元素的下标是通过对元素的关键字进行计算得到的（计算下标的函数叫散列函数）。

与栈，队列，数组等数据结构相比，散列可以以常数平均时间进行插入、删除、查找。因为通过散列函数，可以很简单地计算出要操作的元素的下标，从而可直接进行插入、删除、查找。

但散列不能很好地支持需要排序信息的操作。如findMin,findMax以及有序地输出散列中的所有元素等。因为各个元素的下标是通过散列函数计算得的，这意味着散列中是无序的。

hash：可以翻译为散列，也可以直译为哈希。哈希也就是散列。就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。

散列函数

由于需要通过散列函数计算出元素的下标，所以散列函数计算起来必须简单，并且保证任何两个不同的关键字映射到不同的下标，同时应该能均匀地分布各个元素。比如常用的String类中的hashCode()方法，这就是一个散列函数：

public int hashCode() {
        int h = hash;
        if (h == 0 && value.length > 0) {
            char val[] = value;

            for (int i = 0; i < value.length; i++) {
                h = 31 * h + val[i];
            }
            hash = h;
        }
        return h;
    }

该算法的主要思路是：利用字符串中不同位的字符(可以转为int)乘以31的不同次方，这样不同的string得到的hashcode必然不同。

该算法涉及到关键字中的所有字符，并且一般也可以分布的很好。注意这个算法允许溢出——有可能使int类型的h超出int的最大值——所以在使用这个hash值时需要进行转换，一般如下：

int hash = String#hashCode();
hash = hash % size;//size指数组的大小
if(hash < 0){
  hash += size;
}