理解HashMap

转载 2012年03月22日 10:51:25
以前学习HahsMap都是粗略的了解一下,能够用就行了。这次对HahsMap的源代码看了几遍,对此有一定的理解,就我的理解我总结出如下几点。但在此之前,我们先说下HahsMap的结构,简单来说:HahsMap其实是一个数组和链表的结合体。 
第一、首先对HahsMap的初始容量(也即DEFAULT_INITIAL_CAPACITY)来说个事,看下面的代码吧: 
Java代码  收藏代码
  1. public class TestHashMap {  
  2.     public static void main(String[] args) {  
  3.         HashMap<Integer, Integer> hm1=new HashMap<Integer, Integer>();  
  4.         HashMap<Integer, Integer> hm2=new HashMap<Integer, Integer>(1024<<7);  
  5.         long time1=System.currentTimeMillis();    
  6.         for(int i=0;i<100000;i++){  
  7.             hm1.put(i, i);  
  8.         }  
  9.         long time2=System.currentTimeMillis();    
  10.         long time3=System.currentTimeMillis();    
  11.         for(int i=0;i<100000;i++){  
  12.             hm2.put(i, i);  
  13.         }  
  14.         long time4=System.currentTimeMillis();   
  15.         System.out.println("默认初始容量8所用时间为:"+(time2-time1));  
  16.         System.out.println("定义初始容量131072所用时间为:"+(time4-time3));  
  17.     }  
  18. }  

程序运行的结果为:默认初始容量8所用时间为:94 
               定义初始容量131072所用时间为:47 
可以看出,第二种方法所用时间基本上是前面的一半,这是为什么呢?其实,HashMap的rehash是一个非常消耗性能的操作,rehash的次数越多,所消耗的时间也就越长。当插入100000个元素时,使用初始容量rehash的次数会很多,而根据(100000)/0.75=133333(0.75是HashMap的默认装填因子),也即是说第二种方法只要rehash一次即可,所以消耗的时间会大大减少。 
第二、HashMap的装填因子,按如上代码,我们稍做修改,把定义的hm1和hm2修改成如下: 
Java代码  收藏代码
  1. HashMap<Integer, Integer> hm1=new HashMap<Integer, Integer>(1024<<7,1);  
  2.         HashMap<Integer, Integer> hm2=new HashMap<Integer, Integer>(1024<<7);  
在此运行,结果为:定义装填因子为1所用时间为:47 
               默认装填因子为0.75所用时间为:62 
在这里,我们循环插入100000个数据,但根据HashMap中的hash()函数,基本呈均匀分布,这样,没有什么冲突,那当然是装满更好,插入的效率会提高。但并不是装填因子越大越好,因为我们并不知道插入的数据是不是接近于均匀分布,如果不是的话,那么冲突会很大,查询的效率就会降低,装填因子太小也不好,因为这样会很浪费空间。所以HashMap默认的装填因子取了个折中的数0.75。 
小结下:装填因子衡量的是一个散列表的空间使用程度,装填因子越大表示散列表的装填程度越高,反之越小。我们知道对一个链表法的散列表来说,查询一个元素的平均时间为O(1+a),因此,如果装填因子越大,对空间的利用更充分,然而查询效率就会降低;如果装填因子过小,那么散列表的数据就过于稀疏,对空间造成严重的浪费。 
总结下:如果你知道所要插入的数据的个数N,那么你可以定义HashMap的容量大小为:N/0.75,有因为HashMap的容量必须是2的幂次方,找一个接近的即可;如果你还知道其近似一个均匀分布的话,那么装填因子也可以自己定义,接近于1会更效率。

相关文章推荐

HashMap 剖析与理解

序言ConCurrentHashMap 是一个被忽视的Java Concurrent包下面的类,在满足并发的「安全性」,和「活跃性」的前提下,做到了与不考虑线程安全的 HashMap 同等效率. 作者...

Simple Introduction to Dirichlet Process

http://hi.baidu.com/zcfeiyu123/blog/item/c1fb38dad544ae275982dd97.html

关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码

LDA和HLDA: (1)D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Resea...

基本文本聚类方法

转自:http://hi.baidu.com/yaomohan/blog/item/e7b1c2c2516638110ef477cc.html 经过N天的努力,我的第一个文本聚类小程序终于火热出炉了...

Latent dirichlet allocation note

2 Latent Dirichlet Allocation Introduction LDA是给文本建模的一种方法,它属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机...

LDA

关键所在:it posits that each document is a mixture of a small number of topics and that each word's cr...

深入理解hashmap

  • 2017-01-06 14:49
  • 953KB
  • 下载

深入理解HashMap(及hash函数的真正巧妙之处)

原文地址:http://www.iteye.com/topic/539465   /**      *@author annegu      *@date 2009-12-02   ...

Java中HashMap和TreeMap的区别深入理解

Java中HashMap和TreeMap的区别首先介绍一下什么是Map。在数组中我们是通过数组下标来对其内容索引的,而在Map中我们通过对象来对对象进行索引,用来索引的对象叫做key,其对应的对象叫做...

Java HashMap中在resize()时候的rehash,即再哈希法的理解

HashMap的扩容机制—resize() 虽然在hashmap的原理里面有这段,但是这个单独拿出来讲rehash或者resize()也是极好的。什么时候扩容:当向容器添加元素的时候,会判断当前容器的...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)