概念
理想中散列就是一个包含一些项的具有固定大小的数组。只不过数组中各元素的下标是通过对元素的关键字进行计算得到的(计算下标的函数叫散列函数)。
与栈,队列,数组等数据结构相比,散列可以以常数平均时间进行插入、删除、查找。因为通过散列函数,可以很简单地计算出要操作的元素的下标,从而可直接进行插入、删除、查找。
但散列不能很好地支持需要排序信息的操作。如findMin,findMax以及有序地输出散列中的所有元素等。因为各个元素的下标是通过散列函数计算得的,这意味着散列中是无序的。
hash:可以翻译为散列,也可以直译为哈希。哈希也就是散列。就是把任意长度的输入,通过散列算法,变换成固定长度的输出,该输出就是散列值。
散列函数
由于需要通过散列函数计算出元素的下标,所以散列函数计算起来必须简单,并且保证任何两个不同的关键字映射到不同的下标,同时应该能均匀地分布各个元素。比如常用的String类中的hashCode()方法,这就是一个散列函数:
public int hashCode() {
int h = hash;
if (h == 0 && value.length > 0) {
char val[] = value;
for (int i = 0; i < value.length; i++) {
h = 31 * h + val[i];
}
hash = h;
}
return h;
}
该算法的主要思路是:利用字符串中不同位的字符(可以转为int)乘以31的不同次方,这样不同的string得到的hashcode必然不同。
该算法涉及到关键字中的所有字符,并且一般也可以分布的很好。注意这个算法允许溢出——有可能使int类型的h超出int的最大值——所以在使用这个hash值时需要进行转换,一般如下:
int hash = String#hashCode();
hash = hash % size;//size指数组的大小
if(hash < 0){
hash += size;
}