大数据题型分类总结(实时更新)

本文总结了大数据处理的各种方法,包括hash映射+hash统计、双层桶划分、Bitmap位图法、倒排索引、外排序以及分布式处理中的Hadoop/MapReduce。通过对海量数据的分而治之策略,解决内存限制问题,如利用位图快速查找、建立倒排索引进行高效搜索,以及运用外排序进行大文件排序。
摘要由CSDN通过智能技术生成

在网上看了一些这方面的资料,参考了许多的博客,然后自己按照自己的理解整合了一下相关问题。

1.  hash映射 + hash统计(分治的思想);

(1)   海量日志数据,提取出某日访问百度次数最多的那个IP。

首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。意到IP32位的,最多有个2^32IP。同样可以采用映射的方法,比如模1000把整个大文件映射为1000个小文件(保证相同的ip都分在了同一个文件里,再找出每个小文中出现频率最大的IP(可以采用hash_map对那1000

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值