海量数据处理方式
菜瓜_牛顿
枪如惊雷,照一身肝胆
展开
-
10亿个IP地址排序、10亿年龄排序
(一). 注意:IPV4 的IP地址2^32位约42亿个,占空间4G (二).哈希函数 1.哈希函数即散列函数 哈希函数的输入域可以是非常大的范围,但是输出域是固定范围。 2.哈希函数的性质: a.典型的哈希函数都有无线的输入值域 b.输入值相同时,返回值相同,返回值即哈希值 c.输入值不同时,返回值可能一样,也可能不一样 d.不同输入值得到的哈希值原创 2017-07-13 10:02:37 · 4944 阅读 · 3 评论 -
大数据和空间限制问题
(一).只用2GB内存在20亿个整数中找到出现次数最多的数 【题目】有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数。 【分析】通过哈希表对20亿个整数进行词频统计。哈希表的key是32位的整数,value最坏打算是20亿个(4B)所以一条记录是8B。 最多20亿条记录,需要的内存远超于2GB!一条记录需要8B存储,当哈希表的记录数为2亿个时,至少需原创 2017-07-13 10:44:11 · 673 阅读 · 0 评论 -
大数据--一致性哈希算法
题目: 工程师尝试用服务器集群来设计和实现数据缓存,以下是常见的策略。 1,无论添加、查询、删除数据,都先将数据ID通过哈希函数转换成哈希值key。 2,有N台机器,则 key%N 为该数据所属的机器编号。无论是添加、删除、查询都在这台机器上进行,请分析这种话缓存策略带来的问题,并提出改进方案。 思路: 该缓存方式弊端:如果增加、删除机器-->那么N会变,根据ID重新计算key,原创 2017-07-13 15:23:15 · 1631 阅读 · 0 评论