面经:海量数据算法题(1)

ps:结合IT博客大学习(http://blogread.cn/it/article/2455?f=sr )和 cracking the coding interview 

一些关键词:

位数组:用一个位来记录是否存在等信息,节省空间。

hash table:一个查找,插入等操作为常数级的容器,但是考虑处理数据所需内存。

堆(数据结构):内存允许,求前n大,前n小,一次处理。(如:最大堆求前n小,将数值与堆中最大的数比较,若大于则替换)

划分:数据太大不能全部进入内存,多次划分缩小范围。

外排序:内存不足,大数据去重。

题目1:

一个存储40亿个int的文件,给出算法,生成一个不在该文件中的int。

1)1GB的内存

2)10M的内存

对于空间的分析:

1):

数据类型int,确定存在与否,不重复的int共40亿个,1GB内存=10亿字节,一对一存int是不够的,用位数组来存可以1对32。

2):

10M的话,按1明显不行,采用划分法:分成x个区域,每个区域存(2^32/x)个数,同时需要者些位的空间来做标记,找到第一个区域数不全为1的再遍历一次。

最具效率的使用(10M全利用)就是分区的内存=位数组的内存,x * 4 = 2^32/x /8;  大概一个区域65KB。 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值