海量数据处理问题

这篇博客探讨了如何处理海量数据,特别是面对超过100G的log file中找出现次数最多的IP地址。作者提出了利用哈希划分文件和位图技术解决此类问题。对于位图,它适用于大规模数据且状态有限的情况,通过映射数据到对应位置,用1位表示存在状态。在100亿个整数中找出只出现一次的整数,作者建议使用双比特位表示数据状态,以区分不存在、出现一次和多次的情况。最后,作者提到将分享更多关于哈希和位图的扩展代码。
摘要由CSDN通过智能技术生成

 海量数据处理算是我目前接触到的十分实用的问题,现在的软件后台等都会处理大量的数据,虽然我现在接触的都是十分简单十分基础的题目,但是这给了以后的问题处理提供了很好的一个思路。前几天用堆进行了海量数据的TopK问题今天给大家介绍一些其他的问题。

  最近,了解了哈希了哈希的一些扩展,哈希学到的是一种思路,所以将这种思路进行改进进行就有了位图,还有布隆过滤器等等。

1. 给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址? 

海量数据处理的时候,和少量的时候比,已经不能将你的所有数据都在内存中进行计算了, 所以当你看到这个题已经不是说,之前所做的效率问题,因为之前有很多数据处理的时候会考虑处理方法,因为比如我们用暴力不断的循环来寻找,是效率十分低的问题,但是现在即使你不考虑效率是不是低,你都是不能进行运算的,因为你根本不能同时读取这么多数据,所以现在应该怎么办?有人想到了等分,将你的文件通过切割成小份来进行运算,然后将你的小份数据进行运算,但是你想,假如你的100G,你分成了100分,第一份中最多的是A第二多的是Z,第二份中最多的是B第二多的是Z,依次到最后,你的Z每次都是第二多的,但是最终你加起来最多的应该是Z,你这时候怎么办呢?所以这个思

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值