大数据题型分类总结（实时更新）

最新推荐文章于 2024-06-28 18:06:34 发布

Doris悠然

最新推荐文章于 2024-06-28 18:06:34 发布

阅读量678

点赞数

分类专栏：大数据相关

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37974811/article/details/68065271

版权

本文总结了大数据处理的各种方法，包括hash映射+hash统计、双层桶划分、Bitmap位图法、倒排索引、外排序以及分布式处理中的Hadoop/MapReduce。通过对海量数据的分而治之策略，解决内存限制问题，如利用位图快速查找、建立倒排索引进行高效搜索，以及运用外排序进行大文件排序。

摘要由CSDN通过智能技术生成

在网上看了一些这方面的资料，参考了许多的博客，然后自己按照自己的理解整合了一下相关问题。

1. hash映射 + hash统计（分治的思想）；

（1）海量日志数据，提取出某日访问百度次数最多的那个IP。

首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件（保证相同的ip都分在了同一个文件里），再找出每个小文中出现频率最大的IP（可以采用hash_map对那1000

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据题型分类总结（实时更新）

在网上看了一些这方面的资料，参考了许多的博客，然后自己按照自己的理解整合了一下相关问题。1. hash映射 + hash统计（分治的思想）；（1）海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。