秋招总结(四)-海量数据处理问题归纳

最新推荐文章于 2021-03-02 16:59:43 发布

amoscykl

最新推荐文章于 2021-03-02 16:59:43 发布

阅读量809

点赞数 1

分类专栏：秋招

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/amoscykl/article/details/100567056

版权

本文总结了在处理海量数据时遇到的各种问题及其解决方案，包括找出重复最多的一个、统计最多前N个、提取访问最频繁的IP等。通过哈希映射、大根堆、分治策略等方法有效应对内存限制，实现高效处理。

摘要由CSDN通过智能技术生成

TOP N问题

1.如何在海量数据中找出重复最多一个

通过hash映射为小文件
通过hash_map统计各个小文件重读最多的并记录次数
对每个小文件重复最多的进行建立大根堆

2.上亿有重数据，统计最多前N个

内存存不下
- 通过hash映射为小文件
- 通过hash_map统计各个小文件重读最多的并记录次数
- 对每个小文件重复最多的进行建立大根堆并重复N次取走堆顶并重建堆操作
内存存得下
- 直接内存通过hash_map统计并建大根堆
- 重复N次取走堆顶并重建堆操作

3.海量日志数据，提取出某日访问百度次数最多的那个IP

将IP % 1000映射到1000个小文件中
- 相同IP会被映射到同一个文件
- 不会出现累加和更大情况
分1000次在内存处理小文件，得到频率最大IP（使用map统计）
对这1000个IP建立大根堆

4.1000w查询串统计最热门10个（同2）

5.1G的文件，里面1行1个不超过16字节的词。内存限制1M，返回频数最高前100

将单词 % 5000存入5000小文件
- 平均各文件约200K

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。