数据结构中(Map 和 Set)的那些事

目录

1.概念

1.1搜索

1.2模型 

1.3集合框架 

2.Map

2.1关于Map.Entry的说明 

2.2Map的常用方法

2.3TreeMap 和 HashMap 的区别

3.Set

3.1Set常用的方法 

3.2TreeSet 和 HashSet 的区别 

4.搜索树

4.1概念

4.2查找 

4.3插入 

4.4删除 

4.5性能分析

5.哈希表 

5.1概念

5.2哈希表的插入与搜索 

5.3哈希冲突 

5.4常见哈希函数

1. 直接定制法--(常用)

2. 除留余数法--(常用) 

3. 平方取中法--(了解) 

4.随机数法--(了解)

5.5两种常用的方法(开散列和闭散列) 

1.闭散列

2.开散列 

3.开散列的实现

5.6 性能分析


1.概念

1.1搜索

搜索是根据目标值在一个的特定的集合或者容器中寻找到它

以前常见的搜索有:直接遍历查找 ;二分查找。这些搜索的方法大大小小都有一定的限制条件,因此效率问题值得商榷。

本章我们学习了 Set 和 Map这两种搜索模型:Map和set是一种专门用来进行搜索的容器或者数据结构,其搜索的效率与其具体的实例化子类有关。

1.2模型 

我们一般把搜索的数据称为关键字(Key),和关键字对应的值称为(Value)将其称之为Key-value的键值对,所以模型会有两种:
1. 纯 key 模型,比如:

  • 有一个英文词典,快速查找一个单词是否在词典中
  • 快速查找某个名字在不在通讯录中

2. Key-Value 模型,比如:

  • 统计文件中每个单词出现的次数,统计结果是每个单词都有与其对应的次数:<单词,单词出现的次数>
  • 梁山好汉的江湖绰号:每个好汉都有自己的江湖绰号

1.3集合框架 

2.Map

Map是一个接口类,该类没有继承自Collection,该类中存储的是<K,V>结构的键值对,并且K一定是唯一的,不能重复。

2.1关于Map.Entry<K, V>的说明 

Map.Entry<K, V> 是Map内部实现的用来存放<key, value>键值对映射关系的内部类,该内部类中主要提供了<key, value>的获取,value的设置以及Key的比较方式。

 注意:Map.Entry<K,V>并没有提供设置Key的方法

2.2Map的常用方法

 

注意:

1. Map是一个接口,不能直接实例化对象,如果要实例化对象只能实例化其实现类TreeMap或者HashMap
2. Map中存放键值对的Key是唯一的,value是可以重复的
3. Map中的Key可以全部分离出来,存储到Set中来进行访问(因为Key不能重复)。
4. Map中的value可以全部分离出来,存储在Collection的任何一个子集合中(value可能有重复)。
5. Map中键值对的Key不能直接修改,value可以修改,如果要修改key,只能先将该key删除掉,然后再来进行重新插入。  

2.3TreeMap 和 HashMap 的区别

Map底层结构:

        TreeMap:红黑树                                 

        HashMap: 哈希桶

操作时间复杂度:

        TreeMap:O(log2N)                           

        HashMap: O(1)

是否有序:

        TreeMap:关于Key有序                     

        HashMap: 无序

线程安全:

        TreeMap:不安全

        HashMap: 安全

插入/删除/查找区别:

        TreeMap:需要进行元素比较             

        HashMap: 通过哈希函数计算哈希地址 

 比较覆写:

        TreeMap:key必须能够比较,否则会抛ClassCastException异常                   

        HashMap:  自定义类型需要覆写equals和hashCode方法

应用场景:

        TreeMap: 需要Key有序的场景下         

        HashMap:Key是否有序不关心,需要更高的时间性能     

3.Set

Set与Map主要的不同有两点:Set是继承自Collection的接口类,Set中只存储了Key。

3.1Set常用的方法 

注意:

1. Set是继承自Collection的一个接口类
2. Set中只存储了key,并且要求key一定要唯一
3. Set的底层是使用Map来实现的,其使用key与Object的一个默认对象作为键值对插入到Map中的
4. Set最大的功能就是对集合中的元素进行去重
5. 实现Set接口的常用类有TreeSet和HashSet,还有一个LinkedHashSet,LinkedHashSet是在HashSet的基础上维护了一个双向链表来记录元素的插入次序。
6. Set中的Key不能修改,如果要修改,先将原来的删除掉,然后再重新插入
7. Set中不能插入null的key。 

3.2TreeSet 和 HashSet 的区别 

底层结构:

        TreeSet:  红黑树

        HashSet: 哈希桶
插入/删除/查找时间复杂度:      

        TreeSet:  O(log2N) 

        HashSet: O(1)
是否有序:        

        TreeSet:  关于Key有序

        HashSet: 不一定有序
线程安全:

        TreeSet: 不安全

        HashSet:不安全
插入/删除/查找区别

        TreeSet:按照红黑树的特性来进行插入和删除
        HashSet:1. 先计算key哈希地址 2. 然后进行插入和删除
比较与覆写:
        TreeSet: 必须能够比较,否则会抛出ClassCastException异常
        HashSet:自定义类型需要覆写equals和hashCode方法
应用场景:

        TreeSet:需要Key有序场景下
        HashSet:Key是否有序不关心,需要更高的时间性能

4.搜索树

4.1概念

二叉搜索树又称二叉排序树,它或者是一棵空树,或者是具有以下性质的二叉树:

  • 若它的左子树不为空,则左子树上所有节点的值都小于根节点的值
  • 若它的右子树不为空,则右子树上所有节点的值都大于根节点的值
  •  它的左右子树也分别为二叉搜索树

二叉搜索树的特性:中序遍历的结果是有序的

 0 1 2 3 4 5 6 7 8 9 

4.2查找 

若根节点不为空:

        如果根节点key == 查找的值key,返回true

        如果根节点key值 > 查找的值key,在其左子树查找

        如果根节点key值 < 查找的值key,在其右子树查找

否则,返回false

public boolean search(int value){
        //空树直接返回
        if(root == null){
            return false;
        }
        TreeNode current = root;
        //遍历二叉树
        while(current != null){
        //找到了直接返回
            if(current.value == value){
                return true;
            }
        //去左树找
            if(value < current.value){
                current = current.left;
            }else{
        //去右树找
                current = current.right;
            }
        }
        return false;
    }

4.3插入 

1. 如果树为空树,即根 == null,直接插入
2. 如果树不是空树,按照查找逻辑确定插入位置,插入新结点 

例如插入:42

        首先与根节比较,比根节点小

        再去左子树比较,比左子树的根节点大

        再去左子树的右子树比较,大于34

        所以最终42在34的右边

 public boolean insert(int value){
        TreeNode node = new TreeNode(value);
        //如果是一个空树,将插入结点放在根节点即可
        if(root == null){
            root = node;
            return true;
        }
        //用来遍历的结点
        TreeNode current = root;
        //用来记录current的父亲结点
        TreeNode prev = null;
        //遍历二叉树
        while(current != null){
        //判断是否相等
            if(current.value == value){
        //如果相等直接返回
                return false;
            }
        //找到真正要插入的位置
            prev = current;
            if(node.value < current.value){
                current = current.left;
            }else{
                current = current.right;
            }
        }
        // 当current == null时,prev 就在一个叶子节点的位置
        // 根据prev的值来确定新节点在左还是在右
        if(value < prev.value){
            prev.left = node;
        }else {
            prev.right = node;
        }
        return true;
    }

4.4删除 

设待删除结点为 cur, 待删除结点的双亲结点为 parent
1. cur.left == null
        1. cur 是 root,则 root = cur.right


        2. cur 不是 root,cur 是 parent.left,则 parent.left = cur.right


        3. cur 不是 root,cur 是 parent.right,则 parent.right = cur.right


2. cur.right == null
        1. cur 是 root,则 root = cur.left


        2. cur 不是 root,cur 是 parent.left,则 parent.left = cur.left


        3. cur 不是 root,cur 是 parent.right,则 parent.right = cur.left


3. cur.left != null && cur.right != null
1. 需要使用替换法进行删除,即在它的右子树找到最小的结点或者在左子树找到最大的结点,用它的值填补到被删除节点中,再来处理该结点的删除问题

public boolean remove(int value) {
        if (root == null) {
            return false;
        }
        // 找到要删除元素
        TreeNode current = root;
        TreeNode parent = null;
        while (current != null) {
            if (current.value == value) {
                removeNode(parent, current);
                return true;
            }
            // 记录父节点
            parent = current;
            if (value < current.value) {
                current = current.left;
            } else {
                current = current.right;
            }
        }

        return false;
    }

    private void removeNode(TreeNode parent, TreeNode current) {
        if (current.left == null) {
            // 当左孩子节点为空时进入
            if (current == root) {
                // 把当前要删除节点的右孩子赋给root
                root = current.right;
            } else if (current == parent.left) {
                // 当前节点是父节点的左孩子节点时
                parent.left = current.right;
            } else {
                // 当前节点是父节点的右孩子节点时
                parent.right = current.right;
            }
        } else if (current.right == null) {
            // 当前节点是根节点时
            if (current == root) {
                root = current.left;
            } else if (current == parent.left) {
                // 当前节点是父点的左孩子节点时
                parent.left = current.left;
            } else {
                // 当前节点是父节点的右孩子节点时
                parent.right = current.left;
            }
        } else {
            // 定义用来遍历的几个变量
            TreeNode target = current.right;
            TreeNode parentTarget = current;
            // 向左去找最小值
            while (target.left != null) {
                parentTarget = target;
                target = target.left;
            }
            // 到达叶子节点时
            current.value = target.value;
            // 删除target节点
            if (target == parentTarget.left) {
                parentTarget.left = target.right;
            } else {
                parentTarget.right = target.right;
            }
        }
    }

4.5性能分析

最优情况下,二叉搜索树为完全二叉树,其平均比较次数为:log2N
最差情况下,二叉搜索树退化为单支树,其平均比较次数为: N/2

5.哈希表 

5.1概念

  • 顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即O( log2N),搜索的效率取决于搜索过程中元素的比较次数。
  • 理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。 如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素。所以哈希表就是完成了这个事情。

5.2哈希表的插入与搜索 

插入:根据待插入元素的关键码,利用函数计算出插入位置

查找:对元素进行哈希计算,然后找到相应的位置

5.3哈希冲突 

哈希冲突指,两个或以上的待插入元素经过哈希函数计算,所要插入的位置是同一地址,这种现象称为哈希冲突或者哈希碰撞

要知道哈希表底层数组的容量往往小于待插入元素的个数,所以出现哈希冲突是必然的,我们能做的就是降低冲突率

5.4常见哈希函数

1. 直接定制法--(常用)

取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B 优点:简单、均匀 缺点:需要事先知道关键字的分布情况 使用场景:适合查找比较小且连续的情况

2. 除留余数法--(常用) 

设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址

3. 平方取中法--(了解) 

假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址; 再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址 平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况 

4.随机数法--(了解)

选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key) = random(key),其中random为随机数函数。 

 减少哈希冲突的方法还有很多,哈希函数设计的越精妙,产生冲突的可能就越小,但是无法完全避免哈希冲突

5.5两种常用的方法(开散列和闭散列) 

1.闭散列

线性探测:

        从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。

  • 通过哈希函数计算待插入元素在哈希桶的位置
  • 如果该位置没有元素则直接插入新的元素,如果有元素已经存在,那么从该位置开始线性探测找到下一个空位置,插入新的元素。

  • 采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。比如删除元素4,如果直接删除掉,44查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素

二次探测 :线性探测的缺陷是产生冲突的数据堆积在一块,这与其找下一个空位置有关系,因为找空位置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题,找下一个空位置的方法为:Hi = (H0+i^2 )% m, 或者:Hi= (H0-i^2 )% m。其中:i = 1,2,3…, 是通过散列函数Hash(x)对元素的关键码 key 进行计算得到的位置,m是表的大小。

完成的效率相比于上述方法,避免挨个寻找。但是闭散列最大的缺陷是空间利用率比较低,这也是哈希的缺陷。

2.开散列 

开散列又叫链地址法,首先对待插入元素做哈希地址,具有相同地址的归于一个集合,每个集合称为一个桶,各个桶的元素通过一个单链表连接起来,各个链表的头节点存在哈希桶中。        

         

3.开散列的实现

负载因子:

负载因子越大,哈希桶的冲突率会越高,所以负载因子达到一个值,我们要扩容,来减少冲突 

public class HashBucket {
    // 由于是由单链表链接,定义一个节点对象
    private static class Node {
        int key;
        int value;
        Node next;

        public Node(int key, int value) {
            this.key = key;
            this.value = value;
        }
    }

    // 定义哈希桶,node类型
    private Node[] bucket;
    // 当前有效元素的个数
    private int size;
    // 定义负载因子
    private final float DEFAULT_LOAD_FACTOR = 0.75f;

    public HashBucket () {
        bucket = new Node[8];
    }

    /**
     * 写入操作
     * @param key
     * @param value
     * @return
     */
    public int put (int key, int value) {
        // 1.根据key计算下标
        int index = key % bucket.length;
        // 2.拿到对应下标的元素,这个元素就是链表的头节点
        Node current = bucket[index];
        // 3. 遍历链表,检查是否存在key相同的元素
        while (current != null) {
            if (current.key == key) {
                // 找到的情况下
                int oldValue = current.value;
                current.value = value;
                return oldValue;
            }
            current = current.next;
        }
        // 4. 遍历完链表之后创建新节点
        Node node = new Node(key, value);
        // 5. 让新节点的next引用,当前下标中的节点
        node.next = bucket[index];
        // 6. 让当前下标存放新节点
        bucket[index] = node;
        // 7. 有效个数加1,正确的逻辑这个size是桶位的有效个数
        size++;
        // 8. 判断当前元素的个数(正确的是桶位的有效个数)是否超过负载因子
        if (loadFactor () >= DEFAULT_LOAD_FACTOR) {
            // 9. 扩容
            resize();
        }
        return value;
    }

    //扩容
    private void resize() {
        //创建一个新的数组,大小为原来数组的二倍
        Node[] array = new Node[bucket.length * 2];
        //遍历数组,取出所有元素重新hash
        for (int i = 0; i < bucket.length; i++){
            //取出第一个结点,向下遍历
            Node current = bucket[i];
            while (current != null){
                //记录下一个结点
                Node nextNode = current.next;
                //重新计算位置
                int index = current.key % array.length;
                //结点放入hash桶中
                current.next = array[index];
                array[index] = current;
                //移动到下一个结点
                current = current.next;
            }
        }
        bucket = array;
    }

    private float loadFactor() {
        return size * 1.0f / bucket.length;
    }

    public int get (int key) {
        //计算位置
        int index = key % bucket.length;
        //取出第一个结点
        Node current = bucket[index];
        //向下遍历
        while(current != null){
            //找到目标值
            if(current.key == key){
                return current.value;
            }
        }
        return -1;
    }

}

5.6 性能分析

虽然哈希冲突是不可避免的,但是在实际使用过程中,我们认为哈希冲突是不高的,冲突个数是可控的,通常意义下,我们认为哈希表的插入/删除/查找时间复杂度是O(1) 。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值