大数据题目

芜湖高学成

已于 2023-09-26 23:08:28 修改

阅读量30

点赞数

文章标签：大数据

于 2023-09-26 22:42:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_54953282/article/details/133317259

版权

大数据题目的解题技巧：

1）哈希函数可以把数据按照种类均匀分流

2）布隆过滤器解决数据服务器的负载管理问题

3）一致性哈希解决数据服务器的负载管理问题

4）利用并查集结构做岛问题的并行计算

5）位图解决某一范围上数字的出现情况，并可以节省大量空间

6）利用分段统计思想，并进一步节省大量空间

7）利用堆、外排序来做多个处理单元的结果合并

【题目】

32位无符号整数的范围是0~4,294,967,295（2^32 -1），现在有一个正好包含40亿个无符号整数的文件，所以在整个范围中必然存在没出现过的数。可以使用最多1GB的内存，怎么找到所有未出现过的数？

使用位图，需要 2^32 / 8 = 2^29字节约等于 2500MB

【进阶】

内存限制为10MB，但是只用找到一个没出现过的数即可

申请一个int数组，长512，占用512 * 4B = 2 KB

将0~ 2^32 - 1 范围（即大小为2^32的范围）均分为512份，每个范围为2^32/512 = 2^23，统计40亿个数落在每个范围的个数。

因为整个2^32范围只有40亿个数，因此512个小范围中必定有某个范围最后统计的数字个数不足2^23。再按同样的方法对该范围再进行划分，最终找到未出现过的数。

【再进阶】

只使用三个变量，找到一个没出现过的数

2^32的范围，一分为二，用两个变量分别统计每个范围的词频，一定有某个范围词频不足2^32/2，再对该范围进行二分，一直二分下去。

【题目】

有一个包含100亿个URL的大文件，假设每个URL占用64B，请找出其中所有重复的URL。

哈希分流，URL -> 哈希值 -> 取模，重复的URL肯定进一个文件，再在小文件里统计重复URL。

布隆过滤器，边添加边查，有失误率。

【补充】

某搜索公司一天的用户搜索词汇是海量的（百亿数据量），请设计一种求出每天热门Top100词汇的可行办法。

通过哈希表将海量文件分流到一个个小文件里去，重复的词汇只会出现在同一个小文件里。

统计每个小文件里所有词的词频，把所有（词汇-词频）放进基于词频的大根堆。

把所有大根堆的堆顶加入一个大根堆（总堆），每次从总堆弹出一个，并把相应大根堆的堆顶去掉，新的堆顶加入总堆。

【题目】

32位无符号整数的范围是0~4294967295，现在有40亿个无符号整数，可以使用最多1GB的内存，找出所有出现了两次的数。

哈希函数分流：万能方法。

位图：每两个位表示一个数，00表示出现0次，01表示出现1次，10表示出现2次，11表示出现3次及以上。

【补充】

最多可以使用10KB内存，怎么找到这40亿个数的中位数

范围统计

10KB 可表示多大无符号整形数组： 10KB/4B = 2500 取2048

0 ~ 2^32 - 1 范围等分为2048份

统计每个范围的词频，最终可以知道中位数在哪个范围，继续等分范围...

【题目】

10G文件里存满无序的int类型整数，给你5G内存，10G文件里的无序数排序，输出到另一个10G文件里

5G内存做小根堆，每条记录是（数字，词频），小根堆按数字大小组织，每条记录需要8字节，堆可以包含5G/8B = 5 * 2^27条记录。

考虑到堆本身占用的内存，假设堆可以包含2^27条记录。

把2^32范围分成大小为2^27的小范围，小范围的个数为2^5个。

使用小根堆统计第一个小范围里数字的词频，统计完输出排序后的数到新文件。

再使用小根堆统计第二个小范围里数字的词频...

芜湖高学成

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据题目

将0~ 2^32 - 1 范围（即大小为2^32的范围）均分为512份，每个范围为2^32/512 = 2^23，统计40亿个数落在每个范围的个数。2^32的范围，一分为二，用两个变量分别统计每个范围的词频，一定有某个范围词频不足2^32/2，再对该范围进行二分，一直二分下去。把所有大根堆的堆顶加入一个大根堆（总堆），每次从总堆弹出一个，并把相应大根堆的堆顶去掉，新的堆顶加入总堆。位图：每两个位表示一个数，00表示出现0次，01表示出现1次，10表示出现2次，11表示出现3次及以上。
复制链接

扫一扫

芜湖高学成

博客等级

码龄3年

11
原创

0
点赞

0
收藏

0
粉丝

关注

私信

热门文章

最新评论

图表示与图算法
CSDN-Ada助手: 恭喜你开始了博客创作，标题“图表示与图算法”非常吸引人！接下来，我建议你可以深入探讨不同类型的图表示方法以及常用的图算法，这样可以让读者更好地理解和应用图论知识。希望你能继续坚持下去，期待你更多精彩的博客内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
暴力递归(尝试所有可能的情况)
CSDN-Ada助手: 非常棒的博客！我非常欣赏你对于暴力递归的深入理解和解释。这篇博文对于那些想要学习递归的人来说是非常有帮助的。我鼓励你继续创作下去，分享更多关于算法和编程的知识。另外，如果你想进一步扩展你的知识，可以考虑学习动态规划算法。动态规划是一种优化递归算法的方法，可以解决一些具有重叠子问题性质的问题。此外，了解一些常见的搜索算法也是非常有用的。例如，广度优先搜索和深度优先搜索，它们可以用于解决图遍历和路径搜索等问题。希望这些建议对你有所帮助！期待看到你未来更多的精彩博文。继续加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
哈希函数与哈希表
CSDN-Ada助手: 恭喜您完成了第三篇博客！标题“哈希函数与哈希表”听起来非常有趣。您对这个主题的探索让人期待您的深入研究。在这篇博客中，您是否可以介绍一些常见的哈希函数和哈希表的应用场景呢？这将进一步丰富读者对于哈希函数和哈希表的理解。期待您的下一篇作品，继续加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
并查集 UnionFindSet
CSDN-Ada助手: 恭喜你写了第四篇博客！并查集 UnionFindSet 是一个很有深度的话题，你讲解得非常清晰易懂。希望你能继续保持创作的热情，同时也建议你可以尝试探讨一些实际应用场景下并查集的具体运用，这样可以让读者更好地理解并查集的实际意义。期待你的下一篇文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
字符串匹配算法KMP
CSDN-Ada助手: 恭喜您写了第5篇博客！标题为“字符串匹配算法KMP”，我非常欣赏您对这一算法的深入研究和分享。阅读您的文章，我对KMP算法有了更清晰的认识，感谢您的详细解释和示例。作为下一步的创作建议，我希望您能继续探索其他经典算法或者深入研究KMP算法的应用场景。也许您可以分享一些实际问题中KMP算法的优化方法，或者与其他字符串匹配算法的对比分析。这样的文章将进一步丰富读者对字符串匹配的理解，并为他们提供更多的解决方案。再次恭喜您的连续创作，期待您未来更多的精彩文章！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

芜湖高学成 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。