介绍HashSet .

(1) 为啥要用HahSet?

假如我们现在想要在一大堆数据中查找X数据。LinkedList的数据结构就不说了,查找效率低的可怕。ArrayList哪,如果我们不知道X的位置序号,还是一样要全部遍历一次直到查到结果,效率一样可怕。HashSet天生就是为了提高查找效率的。

(2) hashCode 散列码

散列码是由对象导出的一个整数值。在Object中有一个hashCode方法来得到散列码。基本上,每一个对象都有一个默认的散列码,其值就是对象的内存地址。但也有一些对象的散列码不同,比如String对象,它的散列码是对内容的计算结果:

Java代码
  1. //String对象的散列码计算   
  2. String str="hello";  
  3. int hash=0;  
  4. for(int i=0;i<length();i++)  
  5.     hash=31*hash+charAt(i);  

那么下面散列码的结果不同也就好解释了。s和t都还是String对象,散列码由内容获得,结果一样。sb和tb是StringBuffer对象,自身没有hashCode方法,只能继承Object的默认方法,散列码是对象地址,当然不一样了。

Java代码
  1. String s=new String("OK");//散列码: 3030   
  2. String t="Ok";  /散列码: 3030  
  3. StringBuffer sb=new StringBuffer(s);  //散列码:20526976   
  4. StringBuffer tb=new StringBuffer(t);  //散列码:20527144  

(3) HashSet 散列表的内部结构

HashSet是个链表数组。每一个数组元素就是一个列表,我们称为散列表元

(4) HashSet 如何add机制

假如我们有一个数据(散列码76268),而此时的HashSet有128个散列单元,那么这个数据将有可能插入到数组的第108个链表中(76268%128=108)。但这只是有可能,如果在第108号链表中发现有一个老数据与新数据equals()=true的话,这个新数据将被视为已经加入,而不再重复丢入链表。

那么数据的散列码我知道,但HashSet的散列单元大小如何指定那?

Java默认的散列单元大小全部都是2的幂,初始值为16(2的4次幂)。假如16条链表中的75%链接有数据的时候,则认为加载因子达到默认的0.75。HahSet开始重新散列,也就是将原来的散列结构全部抛弃,重新开辟一个散列单元大小为32(2的5次幂)的散列结果,并重新计算各个数据的存储位置。以此类推下去.....

(5) 为什么HashSet查找效率提高了。

知道了HashSet的add机制后,查找的道理一样。直接根据数据的散列码和散列表的数组大小计算除余后,就得到了所在数组的位置,然后再查找链表中是否有这个数据即可。

查找的代价也就是在链表中,但是真正一条链表中的数据很少,有的甚至没有。几乎没有什么迭代的代价可言了。所以散列表的查找效率建立在散列单元所指向的链表中的数据要少

(6) hashCode方法必须与equals方法必须兼容

如果我们自己定义了一个类,想对这个类的大量对象组织成散列表结构便于查找。有一点一定要注意:就是hashCode方法必须与equals方法向兼容。

Java代码
  1. //hashCode与equals方法的兼容   
  2. public class Employee{  
  3.        public int id;  
  4.        public String name="";  
  5.        //相同id对象具有相同散列码   
  6.        public int hashCode(){   
  7.               return id;  
  8.        }  
  9.        //equals必须比较id   
  10.         public boolean equals(Employee x){  
  11.               if(this.id==x.id) return true;  
  12.               else return false;  
  13.        }  
  14. }  

为什么要这样,因为HashSet不允许相同元素(equals==ture)同时存在在结构中。假如employeeX(1111,“张三”)和employee(1111,"李四"),而Employee.equals比较的是name。这样的话,employeeX和employeeY的equals不相等。它们会根据相同的散列码1111加入到同一个散列单元所指向的列表中。这种情况多了,链表的数据将很庞大,散列冲突将非常严重,查找效率会大幅度的降低。

(6) 总结一下

1、HashSet不能重复存储equals相同的数据。原因就是equals相同,数据的散列码也就相同(hashCode必须和equals兼容)。大量相同的数据将存放在同一个散列单元所指向的链表中,造成严重的散列冲突,对查找效率是灾难性的。

2、HashSet的存储是无序的,没有前后关系,他并不是线性结构的集合。

3、hashCode必须和equals必须兼容这也是为了第1点。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hashset是一种数据结构,它可以存储一组不重复的元素。它的实现方式是通过哈希表来存储元素,哈希表是一种以键值对形式存储数据数据结构,它可以快速地查找和插入元素。 在hashset中,每个元素都被映射到哈希表中的一个位置,这个位置是通过元素的哈希值计算得到的。如果两个元素的哈希值相同,那么它们会被存储在哈希表中的同一个位置,这种情况称为哈希冲突。为了解决哈希冲突,hashset使用链表存储在同一个位置的元素。 当需要查找一个元素hashset会先计算这个元素的哈希值,然后在哈希表中查找这个元素所在的位置。如果这个位置上有元素,那么hashset会遍历链表,查找是否存在与要查找的元素相同的元素。如果找到了相同的元素,那么查找成功,否则查找失败。 当需要插入一个元素hashset会先计算这个元素的哈希值,然后在哈希表中查找这个元素所在的位置。如果这个位置上没有元素,那么hashset会直接将这个元素插入到这个位置上。如果这个位置上已经有元素了,那么hashset会遍历链表,查找是否存在与要插入的元素相同的元素。如果找到了相同的元素,那么插入失败,否则插入成功。 总的来说,hashset是一种高效的数据结构,它可以快速地查找和插入元素。但是,由于哈希冲突的存在,它的性能可能会受到影响。因此,在设计hashset,需要考虑如何减少哈希冲突的发生,以提高性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值