海量数据处理问题

最新推荐文章于 2022-01-07 18:38:02 发布

Hanani_Jia

最新推荐文章于 2022-01-07 18:38:02 发布

阅读量339

点赞数

分类专栏：个人总结数据结构

本文链接：https://blog.csdn.net/Hanani_Jia/article/details/80358566

版权

这篇博客探讨了如何处理海量数据，特别是面对超过100G的log file中找出现次数最多的IP地址。作者提出了利用哈希划分文件和位图技术解决此类问题。对于位图，它适用于大规模数据且状态有限的情况，通过映射数据到对应位置，用1位表示存在状态。在100亿个整数中找出只出现一次的整数，作者建议使用双比特位表示数据状态，以区分不存在、出现一次和多次的情况。最后，作者提到将分享更多关于哈希和位图的扩展代码。

摘要由CSDN通过智能技术生成

海量数据处理算是我目前接触到的十分实用的问题，现在的软件后台等都会处理大量的数据，虽然我现在接触的都是十分简单十分基础的题目，但是这给了以后的问题处理提供了很好的一个思路。前几天用堆进行了海量数据的TopK问题今天给大家介绍一些其他的问题。

最近，了解了哈希了哈希的一些扩展，哈希学到的是一种思路，所以将这种思路进行改进进行就有了位图，还有布隆过滤器等等。

1. 给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？

海量数据处理的时候，和少量的时候比，已经不能将你的所有数据都在内存中进行计算了，所以当你看到这个题已经不是说，之前所做的效率问题，因为之前有很多数据处理的时候会考虑处理方法，因为比如我们用暴力不断的循环来寻找，是效率十分低的问题，但是现在即使你不考虑效率是不是低，你都是不能进行运算的，因为你根本不能同时读取这么多数据，所以现在应该怎么办？有人想到了等分，将你的文件通过切割成小份来进行运算，然后将你的小份数据进行运算，但是你想，假如你的100G，你分成了100分，第一份中最多的是A第二多的是Z，第二份中最多的是B第二多的是Z，依次到最后，你的Z每次都是第二多的，但是最终你加起来最多的应该是Z，你这时候怎么办呢？所以这个思