毒酒判断----大数据查找判断

最新推荐文章于 2020-12-03 23:14:13 发布

nameix

最新推荐文章于 2020-12-03 23:14:13 发布

阅读量795

点赞数

分类专栏：海量数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nameix/article/details/52016493

版权

海量数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

如何在海量数据中找出自己想要的信息；

最常用的判断方法有：折半查找，转换为二进制位查找法

例如：

1。1000杯酒中有一杯有毒，现有10只老鼠，如何判断哪杯酒有毒？

思路：2的10次方=1024；我们可以把这1000个整数换算成10位二进制，000000001到1111101000，从这1000个二进制数中寻找毒酒，毒酒也一定是0和1的某种组合，所以问题转化为如何得出这个组合的每一位都是多少，我们先思考如何得出第一位（从右到左）是0还是1，结论是只要把所有第一位是1的酒给一只老鼠喝，如果这只老鼠最终死了，可知毒酒的第一位一定是1，如果这只老鼠还活着，可知毒酒第一位一定是0.依次类推，我们使用10只老鼠便可判断毒酒的每一位是多少。从而得到毒酒的二进制数，转化成10进制便只是第几桶。

2. 给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？

方案1：申请512M的内存（2^32/8=512MB），一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

方案2：因为2^32为40亿多，所以给定一个数可能在，也可能不在其中；这里我们把40亿个数中的每一个用32位的二进制来表示假设这40亿个数开始放在一个文件中。

然后将这40亿个数分成两类: 1. 最高位为0 2. 最高位为1

并将这两类分别写入到两个文件中，其中一个文件中数的个数<=20亿，而另一个>=20亿（这相当于折半了）；与要查找的数的最高位比较并接着进入相应的文件再查找

再然后把这个文件为又分成两类: 1.次最高位为0 2.次最高位为1

并将这两类分别写入到两个文件中，其中一个文件中数的个数<=10亿，而另一个>=10亿（这相当于折半了）；与要查找的数的次最高位比较并接着进入相应的文件再查找。 ....... 以此类推，就可以找到了,而且时间复杂度为O(logn)。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。