大数据面试题——查询热门的字符串

最新推荐文章于 2023-10-29 10:45:54 发布

CircleYua

最新推荐文章于 2023-10-29 10:45:54 发布

阅读量1.3k

点赞数

分类专栏： BigData

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kingyuan666/article/details/85017845

版权

面对1000万个查询记录，需找出最热门的10个字符串，但内存限制为1GB。分析表明，字符串最多300万个且长度255B。解决方案包括：1）分治法，通过hash函数分文件处理，但效率不高；2）字典法，存储所有字符串及其出现次数，利用小顶堆找到最热门，空间足够；3）Trie树法，适用于大量相同前缀的字符串，通过树结构统计并查找热门。

摘要由CSDN通过智能技术生成

题目描述：

搜索引擎会通过日志文件把用户每次检索使用的字符串记录下来，每个查询串的长度为1~255B。假设目前有1000万个记录（这些查询串的复杂度比较高，虽然总数是1000万，但如果出去重复后，那么不超过300万个。一个查询串的复杂度越高，说明查询它的用户越多，也就是越热门的10个查询串，要求使用的内存不能超过1GB.

分析：

每个查询串的最长为255B，1000万个字符串需要占用2.55内存，因此无法将所有的字符串读入内存中处理。

解法：

方法一：分治法

对字符串进行设置一个bash函数，通过这个hash函数把字符串划分到更小的文件中，从而保证每个小文件中的字符串都可以直接加载到内存中处理，然后求出每个文件中出现的次数最多的10个字符串，最后通过一个小顶堆统计出所有的文件中出现次数最多的10个字符串。

解法分析：功能方法可行，但由于要对文件遍历两次且hash函数要被调用1000次所以性能不是很好

方法二：字典法

虽然字符串比较多，但是由于字符串的种类不超过300万个，因此可以考虑把所有字符串出现的次数保存为一个字典中（键为字符串，值为字符串出现的次数）字典所需要的空间为300万*（255+4）=3MB*259=777MB（其中&

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。