一、散列思想:
散列表 也叫“Hash Table”,“哈希表” 或 “Hash 表”。应用数组支持按照下标随机访问数据的特性,是数组的一种扩展。
二、散列函数:
key 表示元素的键值,hash(key) 的值表示经过散列函数计算得到的散列值(数组的脚标),散列函数不应该过于复杂,否则计算过程也很消耗性能。 哈希算法
散列函数的基本要求:
- 散列函数计算得到的散列值是一个非负整数;
- 如果 key1 = key2,那 hash(key1) == hash(key2);
- 如果 key1 ≠ key2,那 hash(key1) ≠ hash(key2);第三点要求看起来合情合理,但是在真实的情况下,要想找到一个不同的 key 对应的散列值都不一样的散列函数,几乎是不可能的。即便像业界著名的MD5、SHA、CRC等哈希算法,也无法完全避免这种散列冲突。而且,因为数组的存储空间有限,也会加大散列冲突的概率。
三、散列冲突:
散列冲突有两种常用的解决方法,开放寻址法和链表法。散列函数设计的好坏决定了散列冲突的概率,也就决定散列表的性能。详情
散列冲突潜在的安全问题:
恶意的攻击者,可能通过精心构造的数据,所有的数据经过散列函数之后,都散列到同一个槽里。基于链表的冲突解决方法,在这个时候,散列表就会退化为链表,查询的时间复杂度就从 O(1) 急剧退化为 O(n)。