HashMap source code analyze/ Hashmap/Hashtable/ConcurentHashmap/synchronizedMap

最新推荐文章于 2023-04-03 15:50:46 发布

liangxw1

最新推荐文章于 2023-04-03 15:50:46 发布

阅读量435

点赞数

static final int DEFAULT_INITIAL_CAPACITY = 16这个是hasmmap默认的大小。

static final int MAXIMUM_CAPACITY = 1 << 30; hashmap最大的容量，也就是2的幂30。

static final floatDEFAULT_LOAD_FACTOR = 0.75f 负载因子，这里取了0.75似乎java的工程师认为，100个盒子在用了75个的状态下，

既能保证get的速度，将collision降的比较低，又不会浪费太多的盒子，文献上说，这个值大概在2/3左右即可

Hashmap/Hashtable/ConcurentHashmap/synchronizedMap

http://my.oschina.net/chape/blog/212075

Hashtable提供了一种易于使用的、线程安全的、关联的map功能。然而，线程安全性是凭代价换来的——Hashtable的所有方法都是同步的。synchronized是针对整张Hash表的，即每次锁住整张表让线程独占，安全的背后是巨大的浪费。

HashMap提供一个不同步的基类和一个同步的包装器Collections.synchronizedMap（对应List和Collections.synchronizedList，更安全使用CopyOnWriteArrayList），解决了线程安全性问题。通过将基本的功能从线程安全性中分离开来，Collections.synchronizedMap是有条件地线程安全——所有单个的操作都是线程安全的，但是多个操作组成的操作序列却可能导致数据争用，因为在操作序列中控制流取决于前面操作的结果。允许需要同步的用户可以拥有同步，而不需要同步的用户则不必为同步付出代价。

ConcurrentHashMap和Hashtable主要区别就是围绕着锁的粒度以及如何锁。

左边便是Hashtable的实现方式---锁整个hash表；而右边则是ConcurrentHashMap的实现方式---锁桶（或段）。 ConcurrentHashMap将hash表分为16个桶（默认值），诸如get,put,remove等常用操作只锁当前需要用到的桶。原来只能一个线程进入，现在却能同时16个写线程进入，并发性的提升是显而易见的。并且ConcurrentHashMap的读取并发，因为在读取的大多数时候都没有用到锁定，所以读取操作几乎是完全的并发操作。

参考：

http://blog.sina.com.cn/s/blog_5157093c0100hm3y.html

http://www.blogjava.net/zlsunnan/archive/2006/07/02/56184.html

SynchronizedMap和ConcurrentHashMap的深入分析

http://blog.sina.com.cn/s/blog_5157093c0100hm3y.html

在开始之前，先介绍下Map是什么？

javadoc中对Map的解释如下：

An object that maps keys to values . A map cannot contain duplicate keys; each key can map to at most one value.

This interface takes the place of the Dictionary class, which was a totally abstract class rather than an interface.

The Map interface provides three collection views, which allow a map's contents to be viewed as a set of keys, collection of values, or set of key-value mappings.

从上可知，Map用于存储“key-value”元素对，它将一个key映射到一个而且只能是唯一的一个value。

Map可以使用多种实现方式，HashMap的实现采用的是hash表；而TreeMap采用的是红黑树。

1. Hashtable 和 HashMap

这两个类主要有以下几方面的不同：

Hashtable和HashMap都实现了Map接口，但是Hashtable的实现是基于Dictionary抽象类。

在HashMap中，null可以作为键，这样的键只有一个；可以有一个或多个键所对应的值为null。当get()方法返回null值时，即可以表示 HashMap中没有该键，也可以表示该键所对应的值为null。因此，在HashMap中不能由get()方法来判断HashMap中是否存在某个键，而应该用containsKey()方法来判断。而在Hashtable中，无论是key还是value都不能为null 。

这两个类最大的不同在于Hashtable是线程安全的，它的方法是同步了的，可以直接用在多线程环境中。而HashMap则不是线程安全的。在多线程环境中，需要手动实现同步机制。因此，在Collections类中提供了一个方法返回一个同步版本的HashMap用于多线程的环境：

Java代码

public static <K,V> Map<K,V> synchronizedMap(Map<K,V> m) {
return new SynchronizedMap<K,V>(m);
}

该方法返回的是一个SynchronizedMap 的实例。SynchronizedMap类是定义在Collections中的一个静态内部类。它实现了Map接口，并对其中的每一个方法实现，通过synchronized 关键字进行了同步控制。

2. 潜在的线程安全问题

上面提到Collections为HashMap提供了一个并发版本SynchronizedMap。这个版本中的方法都进行了同步，但是这并不等于这个类就一定是线程安全的。在某些时候会出现一些意想不到的结果。

如下面这段代码：

Java代码

// shm是SynchronizedMap的一个实例
if(shm.containsKey('key')){
shm.remove(key);
}

这段代码用于从map中删除一个元素之前判断是否存在这个元素。这里的containsKey和reomve方法都是同步的，但是整段代码却不是。考虑这么一个使用场景：线程A执行了containsKey方法返回true，准备执行remove操作；这时另一个线程B开始执行，同样执行了containsKey方法返回true，并接着执行了remove操作；然后线程A接着执行remove操作时发现此时已经没有这个元素了。要保证这段代码按我们的意愿工作，一个办法就是对这段代码进行同步控制，但是这么做付出的代价太大。

在进行迭代时这个问题更改明显。Map集合共提供了三种方式来分别返回键、值、键值对的集合：

Java代码

Set<K> keySet()；
Collection<V> values()；
Set<Map.Entry<K,V>> entrySet()；

在这三个方法的基础上，我们一般通过如下方式访问Map的元素：

Java代码

Iterator keys = map.keySet().iterator();
while(keys.hasNext()){
map.get(keys.next());
}

在这里，有一个地方需要注意的是：得到的keySet和迭代器都是Map中元素的一个“视图”，而不是“副本” 。问题也就出现在这里，当一个线程正在迭代Map中的元素时，另一个线程可能正在修改其中的元素。此时，在迭代元素时就可能会抛出 ConcurrentModificationException异常。为了解决这个问题通常有两种方法，一是直接返回元素的副本，而不是视图。这个可以通过

集合类的 toArray() 方法实现，但是创建副本的方式效率比之前有所降低，特别是在元素很多的情况下；另一种方法就是在迭代的时候锁住整个集合，这样的话效率就更低了。

3. 更好的选择：ConcurrentHashMap

java5中新增了ConcurrentMap接口和它的一个实现类ConcurrentHashMap。ConcurrentHashMap提供了和Hashtable以及SynchronizedMap中所不同的锁机制。Hashtable中采用的锁机制是一次锁住整个hash表，从而同一时刻只能由一个线程对其进行操作；而ConcurrentHashMap中则是一次锁住一个桶。ConcurrentHashMap默认将hash表分为16个桶，诸如get,put,remove等常用操作只锁当前需要用到的桶。这样，原来只能一个线程进入，现在却能同时有16个写线程执行，并发性能的提升是显而易见的。

上面说到的16个线程指的是写线程，而读操作大部分时候都不需要用到锁。只有在size等操作时才需要锁住整个hash表。

在迭代方面，ConcurrentHashMap使用了一种不同的迭代方式。在这种迭代方式中，当iterator被创建后集合再发生改变就不再是抛出ConcurrentModificationException，取而代之的是在改变时new新的数据从而不影响原有的数据，iterator完成后再将头指针替换为新的数据，这样iterator线程可以使用原来老的数据，而写线程也可以并发的完成改变