海量数据处理面试题(2) 将用户的query按出现频度排序

最新推荐文章于 2022-07-05 22:33:55 发布

weixin_30906701

最新推荐文章于 2022-07-05 22:33:55 发布

阅读量159

点赞数

文章标签：面试

原文链接：http://www.cnblogs.com/suzhou/p/bigdata2.html

版权

问题描述：

有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。

分析：一般海量数据采用分治法时，都要用到哈希，将相似的数据聚集在一起。因此，本题的第一种解法就按照这个思路进行处理。

方案一：

图上说明的很清楚，就不再用文字描述了。像这种海量数据处理的题目，画图往往比语言描述更清晰易懂。

方案二：

如果query的种类较少，重复次数较多，当不同的query可以一次性加载到内存中时，可以选择HashMap进行统计，然后按出现次数做排序。

其实方案二就是方案一中的第二步，对hash之后的单个文件进行数量统计和内部排序。

参考资料：

海量数据处理面试题集锦

转载于:https://www.cnblogs.com/suzhou/p/bigdata2.html

weixin_30906701

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
海量数据处理面试题(2) 将用户的query按出现频度排序

问题描述：有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。分析：一般海量数据采用分治法时，都要用到哈希，将相似的数据聚集在一起。因此，本题的第一种解法就按照这个思路进行处理。方案一：图上说明的很清楚，就不再用文字描述了。像这种海量数据处理的题目，画图往往比语言描述更清晰易懂。方...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。