2018.6.2
上大学时数据结构肯定学过 哈希,不过很多细节都忘了,惭愧, 最近看 “算法图解”,阅读了一下。还是梳理一下以前所学知识。
如果用专业术语来表达的话, 散列函数就是“将输入映射到数字”。你可能认为散列函数输出的数字没什么规律,但其实散列函数必须满足一些要求。
它必须是一致的。例如,假设你输入apple时得到的是4,那么每次输入apple时,得到的都必须为4。如果不是这样,散列表将毫无用处。
它应将不同的输入映射到不同的数字。例如,如果一个散列函数不管输入是什么都返回1,它就不是好的散列函数。最理想的情况是,将不同的输入映射到不同的数字。
散列表是 一种包含额外逻辑的数据结构。数组和链表都被直接映射到内存,但散列表更复杂,它使用散列函数来确定元素的存储位置。
散列表的速度很快!关于数组和链表 你可以立即获取数组中的元素,而散列表也使用数组来存储数据,因此其获取元素的速度与数组一样快。
你可能根本不需要自己去实现散列表,任一优秀的语言都提供了散列表实现。Python/Java/C#等提供的散列表实现为字典 。 C#也还有 Hashtable 类(可以简单理解 泛型和非泛型版本), Hashtable and Dictionary Collection Types 官方有介绍两者区别。 但是没有看到有序无序的问题。 Difference between Hashtable and Dictionary 这里也有详细介绍 。 当我们在“Dictionary”中添加多个条目时,条目的添加顺序将保持不变(有序就是添加顺序)。 当我们从Dictionary中检索所有项时,我们将按照我们插入它们的相同顺序获取记录。 如果我们在Hashtable中添加相同的记录,但是这个顺序不会保留。 可以测试一下。
散列表用途广泛,介绍几个应用案例:
1 将散列表用于查找
2 防止重复
3 将散列表用作缓存(redis/memcache数据库都是作为缓存的!)
冲突
大多数语言都提供了散列表实现,你不用知道如何实现它们。 但你依然需要考虑性能!要明白散列表的性能,你得先搞清楚
什么是冲突。
冲突(collision):给两个键分配的位置相同(映射到同一个数字上了)。
处理冲突的方式很多,最简单的办法如下:如果两个键映射到了同一个位置,就在这个位置存储一个链表。 所谓的 拉链法
下面的两个key :apples, Avocados 都映射到 同一个位置了