双列集合&数据结构

1. Map接口

1.1 Map接口介绍

现实生活中,我们经常需要成对存储某些信息。比如,我们使用的微信,一个手机号只能对应一个微信账户。这就是一种成对存储的关系。

Map就是用来存储“键(key)-值(value) 对”的。Map类中存储的“键值对”通过键来标识,所以“键对象”不能重复。

Map接口位于java.util包中,开发中Map接口最常用的实现类有HashMap、LinkedHashMap、TreeMap、Hashtable、Properties等等。

1.1.1 Map常用方法
Map接口中定义的方法
Object put(Object key, Object value);存放键值对。
Object get(Object key);通过键对象查找得到值对象。
Object remove(Object key);删除键对象对应的键值对。
boolean containsKey(Object key);Map容器中是否包含键对象对应的键值对。
Boolean containsValue(Object value);Map容器中是否包含值对象对应的键值对。
Collection values();获取集合中所有的值
int size();获取包含键值对的数量。
boolean isEmpty();判断Map是否为空。
void clear();清空本map对象所有键值对。

Map接口方法使用:

Map集合中提供了get() 获取元素的方法, get()对应一个键取出其对应的值,这种方式比较局限和单一,不能全部取出来。要取出所有的元素(值),则必须要拿到所有的键,然后才能取到所有与其对应的值,针对这种新的需求,Java中提供了相应的解决方案。

Map集合中是没有迭代器的,Map集合取出键值的原理:将Map集合转成Set集合,再通过迭代器取出 。

1.1.2 keySet() 方法

Set<K> keySet()方法,该方法将map中所有的键存入到Set集合,因为set具备迭代器,所有迭代方式取出所有的键再根据get()方法,获取每一个键对应的值。

1.1.3 entrySet()方法

entrySet()方法,该方法取出的是关系(Set<Map.Entry<K, V>>),关系中包含key和value。其中Map.Entry<K,V>来表示这种数据类型,即将Map集合中的映射关系存入到Set集合中,这个关系的数据类型为Map.Entry接口.

Map.Entry接口在java.util包中,它是Map接口中的一个内部接口,getKey()和getValue()是接口Map.Entry<K,V>中的方法,返回对应的键和对应的值。

【示例】entrySet () 方法使用

1.2 HashMap类使用详解

HashMap采用哈希算法实现,是Map接口最常用的实现类。 由于底层采用了哈希表存储数据,我们要求键不能重复,如果发生重复,新键值对会替换旧的键值对。 HashMap在查找、删除、修改方面都有非常高的效率。

HashMap 集合中的 key 不能重复(key可以为null),因此我们需要通过重写 hashCode() 与 equals()方法来保证Key的唯一性。

1.2.1  情况一:key为常用类对象

HashMap 中key为 JavaAPI 中提供的类型元素时,不需要重写元素的 hashCode 和 equals 方法,因为这两个方法,在 JavaAPI 的每个类中已经重写完毕,如 String 类、Integer 类等。

1.2.2 情况二:key为自定义对象

给 HashMap 中存放自定义对象时,如果自定义对象作为 key 存在,这时要保证对象唯一,必须重写对象的 hashCode 和 equals 方法,建立自己的比较方式,才能保证 HashMap 集合中的对象唯一。

注意:当自定义对象作为HashMap的key时,一定得重写自定义类的 hashCode 和 equals 方法,建立自己的比较方式,才能保证 HashMap 集合中的对象唯一.

1.3 HashMap类底层实现

1.3.1.2 散列函数

散列函数(也就是hashCode()方法),通过散列函数获得key对象的哈希码,实际上就是建立起key值与int值映射关系的函数。把任意的Java对象,映射成一个int数值(散列均匀,尽量不重复),供哈希表使用。

另外,通过hashCode()方法获得的结果是一个很大的整数,我们的哈希表不可能提供那么大的存储空间,所以我们还需要对获得的哈希码值做处理。现实开发中,最常见的做法就是“取余法”,把获得的“哈希码值%哈希表长度”,这样得到的结果就肯定在哈希表索引的合法取值范围了。

1.3.2.3 散列碰撞

通过hashCode()方法,获得了一个散列均匀的哈希码值,但是不同的key对象获得哈希码值可能相同;另外,通过对不同的“哈希码值%哈希表长度”得到的索引值也可能相同,那就意味着在哈希表的某个索引位置需要存储多条数据,这就是所谓的散列碰撞问题。

目前比较通用的解决散列碰撞的方法,就是使用“数组+链表”组合的方式。当出现散列碰撞时,在该位置的数据就通过单链表的方式链接起来,这样一来数组中的每个元素维护的就是一个单链表啦。

总结:

散列碰撞情况一:不同的key通过hashCode()得到的hash值相同。

散列碰撞情况二:不同的hash值,通过hash值%数组长度得到的索引相同

也就是说:只要是在数组的同一个索引处,存储多条数据的情况都称为:散列碰撞

1.3.3 模拟HashMap的实现

接下来我们来基于JDK1.7来模拟HashMap的实现,本章节重点模拟HashMap的put()方法和get()方法,在进行模拟put()方法和get()方法的实现之前,我们先做好相关的准备工作。

首先创建一个Node节点类,Node节点类是HashMap的内部类,它有几个重要的属性:键对象(key) 、值对象(value)、键对象的hash值(hash)和下一个节点(next)。

本次模拟HashMap属于简化实现,此处并没有去考虑table数组的“扩容问题”,所以我们在声明table数组的同时并完成了数组的初始化操作,默认初始化长度16个空间大小。

【第一步】:判断key是否为null

先判断一下要存储内容的key值是否为null,如果key为null,则将该内容存储到table数组的第一个位置。

【第二步】:获得key对象的hashcode

如果key不为null,则再去调用key对象的hashcode()方法,获得key对象的哈希值。

第三步】:获得存储位置的下标

hashcode是一个整数,我们需要将它转化成[0,数组长度-1]范围的整数。我们要求转化后的hash值尽量均匀地分布在[0,数组长度-1]这个区间,减少“hash冲突”。

取模法:索引 = key的哈希值 % 数组长度

【第四步】:将Node对象添加到table数组中

当table[index]返回的结果为null时,则直接创建一个新的Entry对象添加到table[index]处。

当table[index]返回的结果不为null时,则判断链表中是否在相同key。如果存在相同的key,就用新的value代替老的value,也就是执行覆盖操作。如果不存在相同的key,那么新创建的Node对象将会储存在链表的表头,通过next指向原有的Node对象,形成链表结构(hash碰撞解决方案)。

简单来说,HashMap由数组+链表组成的,数组是HashMap的主体,链表则是主要为了解决哈希冲突而存在的。

  • 取数据过程get(key)

    实现步骤:

    我们需要通过key对象获得“键值对”对象,进而返回value对象。明白了存储数据过程,取数据就比较简单了。

    第一步】:判断key是否为null

    先判断一下要获取内容的key值是否为null,如果为null,则执行getForNullKey()方法,这个方法的作用就是将table数组的第一个位置的节点的value值取出来返回。

    第二步】:获得key对象的hashcode

    如果key不为null,则再去调用key对象的hashcode()方法,获得key对象的哈希值。

    【第三步】:获得存储位置的下标

    获得key的hashcode,通过hash()散列算法得到hash值,进而定位到数组的位置找到对应的链表。

    第四步】:在链表上挨个比较key对象

    调用equals()方法,将key对象和链表上所有节点的key对象进行比较,直到碰到返回true的节点对象为止。如果key对象和链表上的某个节点的key对象相同,则直接返回该节点对象的value对象值。如果链表遍历比较完毕,都没有遇到key对象和链表节点的key对象相同的情况,那么证明key对象对应的value对象不存在,直接返回null即可!

1.3.4 HashMap的性能优化

哈希表是一种优化存储的思想,具体存储元素的依然是其它的数据结构。前面我们通过“数组+链表”的方式来实现了哈希表,使其哈希表能同时兼备数组和链表的优点,它能在插入和查找时都具备良好的性能。虽然,哈希表的整体性能已经相当高,但是我们使用哈希表的时候,还是有很多地方值得优化,接下来我们就讲解几个哈希表的优化操作。

  • 散列表的容量设置为2的整数次幂

    把散列表的容量设置为2的整数次幂,就是为了加快散列计算以及减少散列冲突。

    为什么可以加快散列计算?因为& 运算属于位运算,是直接执行的二进制操作,因此&运算比%运算效率更高。当散列表的容量(length)为2的整数次幂时,执行“hash & (length - 1)”和“hash % length”的运算的结果相同,但是&运算的效率高于%运算,所以建议散列表的容量设置为2的整数次幂,代码验证如下:

    为什么可以减少冲突?假设现在数组的长度length可能是偶数也可能是奇数。

    当length为偶数时,length-1为奇数,奇数的二进制最后一位是1,这样便保证了hash &(length-1) 的最后一位可能为0,也可能为1(这取决于hash的值),即&运算后的结果可能为偶数,也可能为奇数,这样便可以保证散列的均匀性。

    当 length为奇数的话,很明显length-1为偶数,它的最后一位是0,这样hash & (length-1)的最后一位肯定为0,即只能为偶数,这样任何 hash 值都只会被散列到数组的偶数下标位置上,这便浪费了近一半的空间。

    因此,length值为2的整数次幂,是为了使不同hash值发生碰撞的概率较小,这样就能使元素在散列表中均匀地散列。

  • 设置散列表的初始化容量

    当散列表中的元素越来越多的时候,散列碰撞的几率也就越来越高(因为数组的长度是固定的),从而导致链表过长,降低了散列表的性能,此时我们就需要对散列表进行扩容操作。

    那么Hashtable什么时候进行扩容呢?当执行put()操作的时候,如果Hashtable中存储元素的个数超过“数组长度* loadFactor”的结果(loadFactor指的是负载因子,loadFactor的默认值一般为0.75),那么就就需要执行数组扩容操作。

    所谓的扩容操作,就是把数组的空间大小扩大一倍,然后遍历散列表中元素,把这些元素重新均匀分散到扩容后的散列表中。例如,默认情况下,数组大小为16,那么当Hashtable中元素个数超过16*0.75=12的时候,就需要执行扩容操作,把数组的大小扩展为2*16=32,然后重新计算每个元素在数组中的位置,这是一个非常消耗性能的操作。

    为了避免扩容带来的性能损坏,建议使用散列表之前,先预测散列表需要存储元素的个数,提前为散列表中的数组设置合适的存储空间大小,避免去执行扩容的操作,进一步提升散列表的性能。

    例如:我们需要存储1000个元素,按照散列表的容量设置为2的整数次幂的思想,我们设置散列表的容量为1024更合适。但是0.75*1024 < 1000,需要执行消耗性能的扩容操作,因此我们设置散列表的容量为2048更加合适,这样既考虑了&的问题,也避免了扩容的问题。

    思考:当我们创建一个HashMap对象,设置哈希表的容量为15,请问HashMap对象创建成功后,哈希表的实际容量为多少呢???

  • 使用红黑树来优化存储

    如果散列表处理“碰撞”的时候,都是采用链表来存储,当碰撞的结点很多时,就会造成检索效率低下。所以我们可以对散列表的结构进一步优化,当碰撞结点较少时(例如:元素小于等于8个),采用链表存储;当较大时(例如:元素大于8个),则采用红黑树(下一章节就要学习)来存储,这样大大的提高了检索的效率。

总结:

当JDK1.7及以前: hash = 数组 + 单链表

当JDK1.8及以后: hash = 数组 + 单链表 + 红黑树

什么时候单链表编程红黑树?

当hash表中数组容量 >= 64 并且同一个索引处的单列表的节点个数> 8时,单链表会变成红黑树。

1.4 LinkedHashMap类详解

1.4.1 LinkedHashMap类概述

LinkedHashMap是 HashMap 集合的子集合,它的底层采用“哈希表+链表”结构,能够保证元素存与取的顺序完全一致。

LinkedHashMap 类和HashMap用法几乎一模一样。当然,LinkedHashMap 集合中的 key 不能重复,我们需要通过重写 hashCode() 与 equals()方法来保证键的唯一。另外,key的取值可以为null,并且如果key发生了重复,则做覆盖操作。

1.5 Hashtable类详解

1.5.1 Hashtable类概述

Hashtable类和HashMap用法几乎一模一样,它的底层依旧采用哈希表结构,查询速度快,在很多情况下它们可以互用。

只不过Hashtable类继承于Dictionary类并实现了Map接口,HashMap类只是Map接口的实现类。另外Hashtable的方法添加了Synchronized关键字确保线程同步检查,效率较低

在Hashtable类中,put(K key, V value)方法就增加了synchronized同步标记。

相比较于HashMap类,Hashtable类中还包含了许多传统的方法,显然这些方法都不属于集合框架,在Hashtable类中常见的传统方法如下所示:

方法名说明
public synchronized Enumeration<K> keys()遍历所有的key,keys()方法类似于keySet()方法
public synchronized Enumeration<V> elements()遍历所有的value,elements()方法类似于values()方法

通过Hashtable的keys()和elements()方法,返回的结果是Enumeration类型,此处Enumeration类的功能类似于Iterator类,都可以实现迭代器的效果,常见的方法如下:

方法名说明
boolean hasMoreElements();判断集合中是否有下一个元素可以迭代,如果有,则返回 true。
E nextElement();返回迭代的下一个元素,并把指针向后移动一位。

1.6 二叉树和红黑二叉树

1.6.1 二叉树的定义

二叉树是树形结构的一个重要类型。 许多实际问题抽象出来的数据结构往往是二叉树的形式,即使是一般的树也能简单地转换为二叉树,而且二叉树的存储结构及其算法都较为简单,因此二叉树显得特别重要。

二叉树(BinaryTree)由一个结点及两棵互不相交的、分别称作这个根的左子树和右子树的二叉树组成。

排序二叉树特性如下:

(1) 左子树上所有节点的值均小于它的根节点的值。

(2) 右子树上所有节点的值均大于它的根节点的值。

排序二叉树本身实现了排序功能,可以快速检索。但如果插入的节点集本身就是有序的,要么是由小到大排列,要么是由大到小排列,那么最后得到的排序二叉树将变成普通的链表,其检索效率就会很差。 比如上面的数据【14, 12, 23, 4, 16, 13, 8, 3】,我们先进行排序变成:【3, 4, 8, 12, 13, 14, 16, 23】,然后存储到排序二叉树中,显然就变成了链表

1.6.2 平衡二叉树(AVL)

为了避免出现上述一边倒的存储,科学家提出了“平衡二叉树”。

在平衡二叉树中任何节点的两个子树的高度最大差别为1,所以它也被称为高度平衡树。 增加和删除节点可能需要通过一次或多次树旋转来重新平衡这个树。

节点的平衡因子是它的左子树的高度减去它的右子树的高度(有时相反)。带有平衡因子1、0或 -1的节点被认为是平衡的。带有平衡因子-2或2的节点被认为是不平衡的,并需要重新平衡这个树。

1.6.3 红黑二叉树

红黑二叉树(简称:红黑树),它首先是一棵二叉树,同时也是一棵自平衡的排序二叉树。

这些约束强化了红黑树的关键性质:从根到叶子的最长的可能路径不多于最短的可能路径的两倍长。这样就让树大致上是平衡的。

红黑树是一个更高效的检索二叉树,JDK 提供的集合类 TreeMap、TreeSet 本身就是一个红黑树的实现。

红黑树的基本操作:插入、删除、左旋、右旋、着色。每插入或者删除一个节点,可能会导致树不在符合红黑树的特征,需要进行修复,进行 “左旋右旋着色” 操作,使树继续保持红黑树的特性。

1.7 TreeMap类使用详解

1.7.1 TreeMap源码分析

TreeMap是一个有序的key-value集合,它是通过红黑二叉树来实现的。

在源码中,成员变量root用来存储整个树的根节点,里面存储了本身数据、左节点、右节点、父节点以及节点颜色,从这里我们就能确定TreeMap底层采用的就是红黑二叉树来实现。

TreeMap基于红黑树实现,TreeMap中支持2种排序方式,方式一:根据其键的自然顺序进行排序(也就是使用Comparable接口来排序),方式二:根据创建映射时提供的Comparator接口进行排序,具体取决于其使用的构造方法,常用的构造方法如下:

方法名说明
public TreeMap()创建一个空TreeMap,keys按照自然排序
public TreeMap(Comparator<? super K> comparator)创建一个空TreeMap,按照指定的comparator排序

TreeMap和HashMap用法大致相同,不同点是TreeMap可以用来排序,HashMap和TreeMap比较:

1、HashMap是key无序的(key可以为null),而TreeMap是key有序的(key不能为null)。

2、HashMap效率略高于TreeMap,在需要对key进行排序的Map时才选用TreeMap。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值