cs61b数据结构与算法 12.Hashing

最新推荐文章于 2024-10-09 22:28:58 发布

wesker1121

最新推荐文章于 2024-10-09 22:28:58 发布

阅读量87

点赞数 1

分类专栏：数据结构文章标签：算法数据结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72741580/article/details/133293957

版权

数据结构专栏收录该内容

21 篇文章 3 订阅

订阅专栏

尝试：把数据(int)当作目录使用

创建一个布尔类型的 ArrayList，大小为 20 亿。默认情况下，所有内容都是 false。
add(int x)方法将ArrayList第x位置设为true。这花费Θ(1)时间
contains（int x)方法返回ArrayList第x位是真还是假。也花费Θ(1)时间。

我们的 DataIndexedIntegerSet 只允许插入整数，但现在我们想插入字符串 "cat"。我们将把可以插入字符串的数据结构称为 DataIntexedEnglishWordSet。

我们可以将小写英文字符串看成26进制的整数，并把它转化为十进制int，这样我们的ArrayList就可以存储小写英文字符串了。

进一步拓展，我们使用ASCII码，每一个字符有一个在0(含)和127(含)之间的值。即相当于128进制整数。如果要包括中文等字符，就要用相应规则拓展，如unicode。unicode里中文最大值为40959。但这时要想表示中文字符串，数值就会膨胀到非常非常大，最终达到integer 溢出(2 147 483 647)。

所以，由鸽巢原理可知只要数据量够大，int就一定会溢出。

避免溢出造成的歧义:HashTable

在ArrayList里不存储真假，而是将真正的字符串(s)都存入ArrayLIst，如果想知道是否存了某个字符串，先找到字符串对应数字的那项，再在这一项内找是否有这个字符串。

下面是一种实现方式：单独链接数据索引数组：数组的每一栏都是个单独的链表，存储了若干个数据。

列表里每个框初始都是空的，当元素x被添加到第h项时：

1. 若框h是空的，我们就创建一个包含x的新列表并将它存在第h项内。

2. 若框h不是空的，如果x不在表中，我们把x存到这个列表内。

这个实现的性能：

1. contains(x) theta(Q)

2. insert(x) theta(Q)

Q为最长的小列表的长度。

每个栏内部的实现方法：可以使用链表LinkedList、数组列表ArrayList、数组集合ArraySet都可以。

改进：节约空间

改进一：取模量。每个字符串按照取100的模量对应的位置存入。

请注意，我们在数组中的 LinkedList 现在会变长，因为我们要把分布在 4 个十亿索引中的所有项目压缩到 100 个索引中。

注：如果我们主列表只取长度为5，即取5的模，结果操作会相当耗时。

改进二：假设我们有：

1. 增长的栏数M

2. 增长的元素数N

只要M=Θ(N), 那么O(N/M)=O(1)。

改进如下：

我们通常把增加M的过程叫做“resizing”。
N/M通常叫做“load factor", 它代表hash table有多满。如果太满了就要增加栏数M。

当N/M>=1.5 , 就将M乘2。

M乘2以后，所有已存储的元素都要取新M的模并重新存储。

Resizing花费时间Θ（N）。

HashTable在Java里的实现

注：Python里的字典的实质就是HashTable。

在Java里，实现为java.util.HashMap和java.util.HashSet。

注：java对负数的取模运算规则：先忽略负号，按照正数运算之后，被取模的数是正数结果就取正，反之取负。（注：(-2)%5中被取模数是-2）。

如果想得到真正数学意义上的取模，应该使用floorMod(x,y)的函数。

警告：1. 不要往HashSet或HashMap里存可变量。

2. 不要再没重写hashCode之前重写equals。

使用素数进位(如31)能比用126产生更好的随机性，降低重复几率。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

wesker1121 CSDN认证博客专家 CSDN认证企业博客

码龄2年

39: 原创

119万+: 周排名

9万+: 总排名

1万+: 访问

: 等级

503: 积分

71: 粉丝

89: 获赞

15: 评论

144: 收藏

私信

关注

热门文章

分类专栏

最新评论

cs61b笔记 Project1
宋大明白: 请问作者，我目前刚导入cs61b的lab和课程作业到idea，刚导入这里面有很多错误比如类重复，问我对此感到迷茫，可以解释一下吗多谢
哈尔滨工业大学数据结构期末总复习（三）
TianM233: 神中神
cs61b数据结构与算法笔记 10,11 二叉搜索树
CSDN-Ada助手: 恭喜您撰写了第20篇博客！阅读您的题目，我想说您对cs61b数据结构与算法的学习进展令人印象深刻。您的博客内容十分有深度，尤其是关于二项搜索图的笔记，这是一个非常有趣和关键的主题。我很期待能够阅读您对这个主题的深入分析和见解。在持续创作方面，我建议您保持这种积极的动力和热情。您的博客不仅对您自己的学习有益，也对读者们提供了宝贵的知识和学习资源。或许您可以考虑添加一些实例或者编程练习，这将使您的博客更加互动和实用。不过，请不要感到压力，因为我知道在写作和分享知识的过程中，我们都在不断学习和成长。再次恭喜您取得的成就！期待看到您未来更多的精彩创作。请继续保持谦虚的态度，因为您的博客已经成为许多人学习的重要参考。祝您一切顺利，并期待与您在未来的博客中再次交流！
概率论与数理统计 SPOC课堂笔记5
CSDN-Ada助手: 恭喜您撰写了第19篇博客！标题中提及了概率论与数理统计，这是一个非常有深度和挑战性的主题。您的博客内容一定给读者带来了很多启发和思考。在下一步的创作中，我建议您可以尝试结合实际案例或者具体问题，更深入地探讨概率论和数理统计的应用。这样能够使读者更好地理解相关概念，并将其应用于实际情境中。期待您的下一篇精彩文章！
cs61b 8.2 渐进分析入门
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题中提到的cs61b 8.2 渐进分析入门听起来非常有趣。您在博客中的内容一定能帮助读者更好地理解和应用渐进分析。接下来，我建议您考虑深入探讨该主题的更多细节，例如不同算法的渐进分析方法，或者渐进分析在实际项目中的应用案例等等。期待您在下一篇博客中的精彩创作！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。