哈希切分_哈希函数文件切分-CSDN博客

本文链接：https://blog.csdn.net/m0_61381297/article/details/136125155

一

这样的题目典型就是KV模型的问题，即通过key IP找对应的value 出现次数，对于KV模型的问题首先想到的就是用map来统计次数，但是100G大小的文件是无法加载到内存的，所以直接用map是不行的。有人可能会想到用位图来解决这里的问题，多开几个位图，用多个比特位的组合来表示次数，这样的想法也是不行的，你怎么知道次数最多是几次呢？如果出现次数最多是10w次呢？你要开多少个位图呢？内存够开那么多位图吗？所以这样的方式也是不行的。

给一个超过100G大小的log file，log中存着IP地址，设计算法找到出现次数最多的IP地址？

统计次数最先想到的就是map，KV模型，但文件太大用不了map，文件太大了，无法加载到内存中，位图能解决key的问题，解决不了kv的问题

map不行，我们间接用map

二

既然直接用map存储无法解决，那就间接用map进行存储KV键值对。切分大文件变成小文件，让小文件中的内容能够加载到内存里面，能够用map存储起来。
首先试想一下，平均切分100G文件可以吗？如果平均切分的话，则某些多次出现的IP可能会被散列到不同的子文件当中，每次内存只能加载一个子文件的内容，此时统计出的最多IP次数在大文件中是最多的吗？这当然是不确定的，所以平均切分的方式万万不可行，因为相同的IP有可能在平均切分的过程中被散列到不同的子文件，则会导致每个子文件中出现次数最多的IP是不可靠的。

三

在切分文件的这一步中就要用到哈希切分了，我们可以将IP进行字符串哈希算法的转换，将其转换为整型，控制映射的范围为0-99，即用转换为整型后的值去%100，那么相同的IP就一定会映射到同一个文件当中，此时每个子文件就相当于一个冲突哈希桶，里面装着的都是出现多次的IP，当然也有可能是只出现一次的IP，反正这些都不重要，只要出现多次的IP没有散列到不同的子文件，分到相同的子文件即可。
此时每个子文件中出现次数最多的IP的次数和在大文件中出现的次数是相同的，则我们只需要一个字符串对象，存储当前子文件中出现次数最多的IP即可，然后依次遍历后面的子文件，若次数大于上一个文件中出现次数最多的IP，那就更新字符串对象即可

2.单个子文件太大怎么办？（分两种情况讨论）

1.
如果哈希切分后的单个子文件还是太大该怎么办呢？
此时要分为两种情况，如果子文件中冲突的IP大多是不相同的IP，那么map是会统计不下的，此时就需要我们换个字符串hashfunc，递归哈希切分这个子文件，可以改变一下哈希函数中除留余数法，模的大小，但除留余数法还是挺好用的，如果你觉得不太好用，你也可以尝试其他的哈希函数，我个人推荐继续使用除留余数法，改变一下模的大小，再换个hashfunc，重新建立映射关系，递归将这个子文件进行哈希切分，直到map能够统计这个子文件中的IP内容为止。
另一种情况就是，如果子文件中冲突的IP大多是相同的IP，此时虽然文件的大小表面上看来很大，map有可能存不下，但是不要忘了，map是可以去重的呀，虽然你文件很大，但是大多数的IP都是重复的IP，map当然是可以存的下的，对于大量出现的IP只需要++对应的出现次数value即可。

2.
具体实现的方案是这样的，上来先遍历子文件内容，将每个内容构造成键值对插入到map里面，如果map存不下，则在插入的过程中会出现内存不够的情况，insert会报错，那其实就是new结点失败，new失败是会抛异常的，我们只要捕获这个异常即可，此时说明这个子文件中大多是不同的IP，那么只需要递归哈希切分这个子文件即可。
如果map能够存的下，则正常统计出出现次数最多的IP即可，无须进行其他任何操作。