1.1 map的分类和常见的情况
java为数据结构中的映射定义了一个接口java.util.Map;它有四个实现类,分别是HashMap、Hashtable、LinkedHashMap和TreeMap。
Map主要用于存储键值对,根据键得到值,因此不允许键重复(重复了覆盖了),但允许值重复。
1.1.1 HashMap
HashMap是一个最常用的Map,他根据键的HashCode值存储数据,根据键可以直接获取它的值,具有很快的访问速度,遍历时,取得数据的顺序完全是随机的。HashMap最多只允许一条记录的键为Null;允许多条记录的值为Null;HashMap不支持线程的同步,即任一时刻可以有多个线程同时写HashMap;可能会导致数据的不一致。如果需要同步,可以用Collections.synchronizedMap方法使HashMap具有同步的能力,或者使用ConcurrentHashMap。
1.1.2 Hashtable
Hashtable与HashMap类似,它继承自Dictionary类,不同的是:它不允许记录的键或者值为Null。它支持线程的同步,即任一时刻只有一个线程能写Hashtable,因此也导致了HashTable在写入时会比较慢。
1.1.3 LinkedHashMap
LinkedHashMap时HashMap的一个子类,保存了记录的插入顺序,在用Iterator遍历LinkedHashMap时,先得到的记录肯定是先插入的。也可以在构造时带参数按照应用次数排序。在遍历的时候会比HashMap慢,不过有种情况例外,当HashMap容量很大,实际数据较少时,遍历起来可能会比LinkedHashMap慢,因为LinkedHashMap的遍历速度只和实际数据有关,和容量无关,而HashMap的遍历速度它的容量有关。
1.1.4 TreeMap
TreeMap实现SortMap接口,能够把它保存的记录根据键排序,默认是案件值的升序排列,也可以指定排序的比较器,当用Iterator遍历TreeMap时,得到的记录是排过序的。
一般情况下我们用的最多的是HashMap,在Map中插入、删除和定位元素,HashMap是最好的选择。但如果要按照自然顺序或自定义顺序遍历键,那么TreeMap会更好。如果需要输出的顺序和输入的相同,那么用LinkedHashMap可以实现,它还可以按照读取顺序来排列。
1.2 HashMap为什么线程不安全
1.2.1 JDK1.7中的HashMap
- 扩容造成数据丢失
- 扩容造成死循环
我们都知道HashMap是线程不安全的,在多线程环境中不建议使用,但是其线程不安全主要体现在什么地方呢?
下面举两个可能出现线程不安全的地方。
- put的时候导致的多线程数据不一致。
比如有两个线程A和B,首先A希望插入一个key-value对到HashMap中,首先计算记录所要落到的桶的索引坐标index,然后获取到该桶里面的链表头结点,此时线程A的时间片用完了,而此时线程B被调度得以执行,和线程A一样执行,只不过线程B成功将记录插到了桶里面,假设线程A插入的记录计算出来的桶索引和线程B要插入的记录计算出来的桶索引是一样的,那么当线程B成功插入之后,线程A再次被调度运行时,它依然持有过期的链表头但是它并不知道,它认为它还应该这样做,因此就覆盖了线程B插入的记录,这样线程B插入的记录就凭空消失了,造成了数据不一致。 - 另外一个比较明显的线程不安全的问题是HashMap的get操作可能因为resize而引起死循环
下面是进行resize时调用的transfer()方法的代码,然后在多线程环境下,假设有两个线程A和B都在进行put操作。线程A在执行到transfer函数中第11行代码处挂起。
void transfer(Entry[] newTable,boolean rehash){
int newCapacity = newTable.length;
for(Entry<K,V> e : table){
while(null != e){
Entry<K,V> next = e.next;
if(rehash){
e.hash = null == e.key ? 0 : hash(e.key);
}
int i = indexFor(e.hash,newCapacity);
e.next = newTable[i];
newTable[i] = e; //线程A在这里挂起
e = next;
}
}
}
线程A挂起后,此时线程B正常执行,并完成resize操作,由于线程B已经执行完毕,根据Java内存模型,现在newTable和table中的Entry都是主存中最新值。
1.2.2 JDK1.8中的HaspMap
在jdk1.8中对HashMap进行了优化,在发生hash碰撞,不再采用头插法方式,而是直接插入链表尾部,因此不会出现环形链表的情况,但是在多线程的情况下仍然不安全。
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).l