1. Hashmap实现概述
HashMap是基于哈希表的Map接口的非同步实现。此实现提供所有可选的映射操作,并允许使用null值和null键。此类不保证映射的顺序,特别是它不保证该顺序恒久不变。
数组的索引读取时间复杂度较低,但插入和删除时间复杂度较高;链表则反之。
将两个最简单的数据结构拼凑组成的Hash表兼顾了两者的优势,数组作为Hash表的基础结构,存取键值对对象地址,
链表用于解决Hash表的冲突,即链地址法。
2. 解决hash冲突的办法
开放定址法(线性探测再散列,二次探测再散列,伪随机探测再散列)
再哈希法
链地址法
建立一个公共溢出区
Java中hashmap的解决办法就是采用的链地址法。
3. Hash表的大小
public HashMap(int initialCapacity, float loadFactor) {
.....
// Find a power of 2 >= initialCapacity
int capacity = 1;
while (capacity < initialCapacity)
capacity <<= 1;
this.loadFactor = loadFactor;
threshold = (int)(capacity * loadFactor);
table = new Entry[capacity];
init();
}
table初始大小(即Hash表的大小)并不是构造函数中的initialCapacity,而是 >= initialCapacity的2的n次幂
4. 如何计算键值对的Hash值
int hash = hash(key.hashCode()); // Hash表中用的Hash值是key这个对象的hashCode对应的Hash值
5.如何获取键值对在Hash表中的位置
int i = indexFor(hash, table . length ); // 获取数组索引
HashMap存取时,都需要计算当前key应该对应Entry[]数组哪个元素,即计算数组下标;算法如下:
/**
* Returns index for hash code h.
*/
static int indexFor ( int h, int length) {
return h & (length-1);
}
由于length为2的n次幂,length-1对应的二进制数每位都是1,
h和length-1按位取并,作用上相当于h%length,即对Hash表的长度取余, 很明显&比%具有更高的效率 。
5. HashMap的resize(rehash):
当HashMap中的元素越来越多的时候,hash冲突的几率也就越来越高,因为数组的长度是固定的。所以为了提高查询的效率,就要对HashMap的数组进行扩容,数组扩容这个操作也会出现在ArrayList中,这是一个常用的操作,而在HashMap数组扩容之后,最消耗性能的点就出现了:原数组中的数据必须重新计算其在新数组中的位置,并放进去,这就是resize。
那么HashMap什么时候进行扩容呢?当HashMap中的元素个数超过数组大小*loadFactor时,就会进行数组扩容,loadFactor的默认值为0.75,这是一个折中的取值。也就是说,默认情况下,数组大小为16,那么当HashMap中元素个数超过16*0.75=12的时候,就把数组的大小扩展为 2*16=32,即扩大一倍,然后重新计算每个元素在数组中的位置,而这是一个非常消耗性能的操作,所以如果我们已经预知HashMap中元素的个数,那么预设元素的个数能够有效的提高HashMap的性能。
6. Fail-Fast机制:
java.util.HashMap不是线程安全的,因此如果在使用迭代器的过程中有其他线程修改了map,那么将抛出ConcurrentModificationException,这就是所谓fail-fast策略。
HashMap是基于哈希表的Map接口的非同步实现。此实现提供所有可选的映射操作,并允许使用null值和null键。此类不保证映射的顺序,特别是它不保证该顺序恒久不变。
实现Hashmap这样的键值对数据结构可以有多个方法,如C++ 标准库实现类似数据结构主要使用的是红黑树
Java当中的Treemap使用的也是红黑树。
Java实现非常巧妙,主要思路是用一个数组和一个链表构成一个Hash表来作为基础结构。数组的索引读取时间复杂度较低,但插入和删除时间复杂度较高;链表则反之。
将两个最简单的数据结构拼凑组成的Hash表兼顾了两者的优势,数组作为Hash表的基础结构,存取键值对对象地址,
链表用于解决Hash表的冲突,即链地址法。
2. 解决hash冲突的办法
开放定址法(线性探测再散列,二次探测再散列,伪随机探测再散列)
再哈希法
链地址法
建立一个公共溢出区
Java中hashmap的解决办法就是采用的链地址法。
3. Hash表的大小
public HashMap(int initialCapacity, float loadFactor) {
.....
// Find a power of 2 >= initialCapacity
int capacity = 1;
while (capacity < initialCapacity)
capacity <<= 1;
this.loadFactor = loadFactor;
threshold = (int)(capacity * loadFactor);
table = new Entry[capacity];
init();
}
table初始大小(即Hash表的大小)并不是构造函数中的initialCapacity,而是 >= initialCapacity的2的n次幂
4. 如何计算键值对的Hash值
int hash = hash(key.hashCode()); // Hash表中用的Hash值是key这个对象的hashCode对应的Hash值
5.如何获取键值对在Hash表中的位置
int i = indexFor(hash, table . length ); // 获取数组索引
HashMap存取时,都需要计算当前key应该对应Entry[]数组哪个元素,即计算数组下标;算法如下:
/**
* Returns index for hash code h.
*/
static int indexFor ( int h, int length) {
return h & (length-1);
}
由于length为2的n次幂,length-1对应的二进制数每位都是1,
h和length-1按位取并,作用上相当于h%length,即对Hash表的长度取余, 很明显&比%具有更高的效率 。
5. HashMap的resize(rehash):
当HashMap中的元素越来越多的时候,hash冲突的几率也就越来越高,因为数组的长度是固定的。所以为了提高查询的效率,就要对HashMap的数组进行扩容,数组扩容这个操作也会出现在ArrayList中,这是一个常用的操作,而在HashMap数组扩容之后,最消耗性能的点就出现了:原数组中的数据必须重新计算其在新数组中的位置,并放进去,这就是resize。
那么HashMap什么时候进行扩容呢?当HashMap中的元素个数超过数组大小*loadFactor时,就会进行数组扩容,loadFactor的默认值为0.75,这是一个折中的取值。也就是说,默认情况下,数组大小为16,那么当HashMap中元素个数超过16*0.75=12的时候,就把数组的大小扩展为 2*16=32,即扩大一倍,然后重新计算每个元素在数组中的位置,而这是一个非常消耗性能的操作,所以如果我们已经预知HashMap中元素的个数,那么预设元素的个数能够有效的提高HashMap的性能。
6. Fail-Fast机制:
java.util.HashMap不是线程安全的,因此如果在使用迭代器的过程中有其他线程修改了map,那么将抛出ConcurrentModificationException,这就是所谓fail-fast策略。