HashMap 源码笔记

最新推荐文章于 2023-02-27 00:13:44 发布

bingjing12345

最新推荐文章于 2023-02-27 00:13:44 发布

阅读量846

点赞数

分类专栏： java语言本身

本文链接：https://blog.csdn.net/bingjing12345/article/details/8119337

版权

java语言本身专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1 hashMap其key空间的长度一定为2的N次方.

2加快Hash效率的另一个有效途径是编写良好的自定义对象的HashCode，String的实现采用了如下的计算方法

for (int i = 0; i < len; i++) {

h = 31*h + val[off++];

}

hash = h;

这种方法HashCode的计算方法可能最早出现在Brian W. Kernighan和Dennis M. Ritchie的《The C Programming Language》中，被认为是性价比最高的算法（又被称为times33算法，因为C中乘数常量为33，JAVA中改为31），实际上，包括List在内的大多数的对象都是用这种方法计算Hash值。

3为了将各元素的hashCode保存至长度为Length的key数组中，一般采用取模的方式，即index = hashCode % Length。不可避免的，存在多个不同对象的hashCode被安排在同一位置，这就是我们平时所谓的“冲突”。如果仅仅是考虑元素均匀化与冲突极小化，似乎应该将Length取为素数（尽管没有明显的理论来支持这一点，但数学家们通过大量的实践得出结论，对素数取模的产生结果的无关性要大于其它数字）。为此，Craig Larman and Rhett Guthrie《Java Performence》中对此也大加抨击。为了弄清楚这个问题，Bruce Eckel（Thinking in JAVA的作者）专程采访了java.util.hashMap的作者Joshua Bloch，并将他采用这种设计的原因放到了网上

（http://www.roseindia.net/javatutorials/javahashmap.shtml）。

上述设计的原因在于，取模运算在包括Java在内的大多数语言中的效率都十分低下，而当除数为2的N次方时，取模运算将退化为最简单的位运算，其效率明显提升（按照Bruce Eckel给出的数据，大约可以提升5～8倍）

最主要的原因是：rehash时只需要移动50%的数据。

4 Fail-Fast机制：

我们知道java.util.HashMap不是线程安全的，因此如果在使用迭代器的过程中有其他线程修改了map，那么将抛出ConcurrentModificationException，这就是所谓fail-fast策略。

这一策略在源码中的实现是通过modCount域，modCount顾名思义就是修改次数，对HashMap内容的修改都将增加这个值（即使是从map中移除数据），那么在迭代器初始化过程中会将这个值赋给迭代器的expectedModCount。

在HashMap的API中指出：

由所有HashMap类的“collection视图方法”所返回的迭代器都是快速失败的：在迭代器创建之后，如果

从结构上对映射进行修改，除非通过迭代器本身的 remove 方法，其他任何时间任何方式的修改，迭代器都将

抛出ConcurrentModificationException。因此，面对并发的修改，迭代器很快就会完全失败，而不冒在将来

不确定的时间发生任意不确定行为的风险。

5 key 可以是null ，getForNullKey()

6 判断key是否相等

if(e.hash == hash && ((k=e.key) == key|| key.equals(k))

if(k1 ==k2 || (k1 !=null &&k1.equals(k2))

7 putForCreate()

8 HashIterator 的构造函数

//fail-fast策略的初始化

expectedModCount = modCount;

//next 指向下一个元素

while(index < t.length && (next= t[index++]) ==null)

;

只是一遍一遍地重复是不够的，必须挑战恰好超越你能限的事情，尝试并思考你的表现，并自我矫正。

Entry 条目

在引入Entry之前的标准的Map的遍历方法如下：

Set keys = map.keySet( );

if(keys != null) {

Iterator iterator = keys.iterator( );

while(iterator.hasNext( )) {

Object key = iterator.next( );

Object value = map.get(key);

}

每次都要根据key 到Map中找对应的值，低效。

引入以后

Map<Integer, Integer> map = new HashMap<Integer, Integer>();

for (Map.Entry<Integer, Integer> entry : map.entrySet()) {

System.out.println(“Key = ” + entry.getKey() + “, Value = ” + entry.getValue());

}

或者

Map<Integer, Integer> map = new HashMap<Integer, Integer>();

Iterator<Map.Entry<Integer, Integer>> entries = map.entrySet().iterator();

while (entries.hasNext()) {

Map.Entry<Integer, Integer> entry = entries.next();

System.out.println(“Key = ” + entry.getKey() + “, Value = ” + entry.getValue());

}

每次都是将key-value 一起取出来，效率明显提高了。

/**

* The default initial capacity- MUST be a power of two.

staticfinalintDEFAULT_INITIAL_CAPACITY = 16;

/**

* The load factor used when none specified in constructor.

staticfinalfloatDEFAULT_LOAD_FACTOR = 0.75f;

/**

* The table, resized as necessary. Length MUST Always be a power of two.

* table就是 hash函数拉链法中的数组。显然Entry就是它要装的元素（键值对）。

transient Entry[]table;

/**

* The number of key-value mappings contained in this map.

* 这个table中实际装了多少元素

transientintsize;

/**

* The next size value at which to resize (capacity * load factor).

intthreshold;

/**

*不等装满就扩充容量了，这样能使冲突尽量减少，基本能保证在O（1）能查找到所需元

*/素

if (size++ >=threshold)

resize(2 *table.length);

void resize(intnewCapacity) {

Entry[] oldTable = table;

int oldCapacity = oldTable.length;

if (oldCapacity ==MAXIMUM_CAPACITY) {

threshold = Integer.MAX_VALUE;

return;

}

Entry[] newTable = new Entry[newCapacity];

transfer(newTable);

table = newTable;

threshold = (int)(newCapacity * loadFactor);

}

public Object put(Object key, Object value) {

  //我们的内部数组是一个 Entry 对象数组

  //Entry[] table;

  //获取哈希码，并映射到一个索引

  int hash = key.hashCode();

  int index = (hash & 0x7FFFFFFF) % table.length;

  //冲突处理，不同的键对象可能拥有相同的哈希，也可能是相同的键对象的修改

   for (Entry e = table[index] ; e != null ; e = e.next) {

    //必须检查键是否相等，原因是不同的键对象可能拥有相同的哈希

    if ((e.hash == hash) && e.key.equals(key)) {

      假如放入的key是已经存在的，就替换原来的值

      Object old = e.value;

      e.value = value;

      return old;

  //创建一个指向上一个列表开头的新 Entry，

  //用头插法建立的， 即先插入的在上面

  Entry e = new Entry(hash, key, value, table[index]);

  table[index] = e;

  return null;

还有一点要注意的是，HashMap对key进行hash时，不是取的key的key.hashCode()方法，而是对key的hashcode作一些运算得到最后的hash值

    static int hash(int h) {
        // This function ensures that hashCodes that differ only by
        // constant multiples at each bit position have a bounded
        // number of collisions (approximately 8 at default load factor).
        h ^= (h >>> 20) ^ (h >>> 12);
        return h ^ (h >>> 7) ^ (h >>> 4);
    }

这是因为在后面的table检索中，使用的函数为

staticintindexFor(inth,int length)

{returnh & (length-1);}

如果直接使用 key.hashcode 其除去低length-1位后的部分不会对key在table中的位置产生任何影响，这样只要保持低length-1位不变，

不管高位如何都会冲突，所以就想办法使得高位对其结果也产生影响