散列表(Hash table)是什么
散列表,英:Hash table,也被称为哈希表。是通过把存储对象数据分门别类的存放起来,来加速查找特定门类数据效率的一种数据结构。其和桶排序(Bucket sort)类似,只不过桶里装的不是元素的个数,而是一个链表的头结点。这些链表中存储的是被归为同类型的数据。
散列表可能大部分人不熟悉,但主流语言里的 Map / Dictionary 概念大家一定非常熟悉,是用来存储Key / Value对(键值对) 的,相较于数组/列表而言,Map提供快速查询特定数据的功能。而帮助实现Map功能的内部数据结构则可以采用散列表,来帮助其存储和查询数据。在Java中则有对应的类HashMap
项 | 项(En) | 简介 |
键 | Key | Value的唯一标识,散列函数的Input,被hash对象。 |
值 | Value | 被Key唯一标识的数据 |
散列函数(哈希函数) | Hash Function | 对任意类型数据,是能计算出大致代表其特征的数值的函数,好的哈希函数(算法)能减少特征数值重复的概率。如文件的MD5值就是文件数据的特征数值。 |
散列表 | Hash Table | 散列表的本体,是一个数组, 通常(※为何说是通常,是因为有其他实现方式如Open Addressing,本文不谈,本文只言及Separate chaining) 数组的每一个地址上存储的都是一个链表的头,这个链表里的所有节点都是拥有相同散列表地址的数据 (※不是Key相同) |
散列表地址 | - | 通过散列函数计算出的Key的哈希值,其值通常因过大(i.e. java的hashCode方法返回值是int)而无法直接映射到一个表里,一般的做法是通过对Key哈希值取余的方式来把哈希值映射到散列表的地址上。这个地址被称为散列表地址。 |
- | buckets | 为了和散列表做区分,一般上述散列表在表述或图示的时候也被称为buckets。中译为桶,形象理解为一个一个桶一样的地方来存放拥有散列表地址数据的地方。 |
链表 | Linked List | 存放链式数据的一种数据结构,其易于动态扩展大小的特性使其被选为存储桶数据的数据结构。(※你可以用数组来存储桶内数据,但是其各方面表现必然不如链表,如维护性、可读性和性能) |
冲突 | Collision | 通过hash值来计算得到的散列表地址,会有不同key值计算出相同地址的可能性(※Key Hash值相同或hash值取余后相同),为了解决冲突,Separate chaining实现的做法是把形同地址的数据通过链表串联起来。 |
相关知识点 - HashMap的扩容
项 | 项(En) | 简介 |
初始容量 | initialCapacity | 代表桶(bucket)的容量,也就是散列表的大小,默认通常为16 |
负载系数 | loadFactor | 负载系数(※笔者直译),代表触发扩容机制的阈值。当内部散列表的使用率(负载)打到设定负载系数(阈值)时触发扩容机制。默认值为0.75 (75%) |
扩容 | increase capacity | 打到扩容条件时,对内部散列表的大小进行倍增处理,所有数据会被重新计算散列表地址并重新被放到对应的链表里。 |
Ref - Offical Doumentation
ref - https://docs.oracle.com/javase/8/docs/api/java/util/HashMap.htm
An instance of HashMap has two parameters that affect its performance: initial capacity and load factor. The capacity is the number of buckets in the hash table, and the initial capacity is simply the capacity at the time the hash table is created. The load factor is a measure of how full the hash table is allowed to get before its capacity is automatically increased. When the number of entries in the hash table exceeds the product of the load factor and the current capacity, the hash table is rehashed (that is, internal data structures are rebuilt) so that the hash table has approximately twice the number of buckets.
As a general rule, the default load factor (.75) offers a good tradeoff between time and space costs. Higher values decrease the space overhead but increase the lookup cost (reflected in most of the operations of the HashMap class, including get and put). The expected number of entries in the map and its load factor should be taken into account when setting its initial capacity, so as to minimize the number of rehash operations. If the initial capacity is greater than the maximum number of entries divided by the load factor, no rehash operations will ever occur.