大数据(2)

案例3
有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数,但内存限制只有2G
这里写图片描述
解决思路
这里写图片描述
下再用哈希表依次处理各个文件,统计每种数出现的次数,此时肯定不会溢出。
这里写图片描述

案例4
这里写图片描述
先分析哈希表思路:
这里写图片描述
bitmap思路:
这里写图片描述
这里写图片描述
找到这个技术不足的区间,假设为a
再遍历一次40亿个数,此时只关注区间a上的数,并用bitmap统计区间a上的数的出现情况。
占用差不多8m空间
这里写图片描述

案例5
这里写图片描述
这里写图片描述
机器数n取决于面试官的给定
这里写图片描述

案例6
这里写图片描述
这里写图片描述

为解决上述问题,下介绍一致性哈希算法
这里写图片描述
哈希值环形,数据入环,顺时针寻找机器归属。
添加机器:
这里写图片描述
这里写图片描述
由此可见,添加机器3,只有右上角部分数据需要进行迁移,代价小了很多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值