面经：海量数据算法题（1）

最新推荐文章于 2022-05-18 20:48:13 发布

巨人的口粮

最新推荐文章于 2022-05-18 20:48:13 发布

阅读量495

点赞数

分类专栏：算法校招文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012480619/article/details/41653539

版权

校招同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

ps：结合IT博客大学习（http://blogread.cn/it/article/2455?f=sr ）和 cracking the coding interview

一些关键词：

位数组：用一个位来记录是否存在等信息，节省空间。

hash table：一个查找，插入等操作为常数级的容器，但是考虑处理数据所需内存。

堆（数据结构）：内存允许，求前n大，前n小，一次处理。（如：最大堆求前n小，将数值与堆中最大的数比较，若大于则替换）

划分：数据太大不能全部进入内存，多次划分缩小范围。

外排序：内存不足，大数据去重。

题目1：

一个存储40亿个int的文件，给出算法，生成一个不在该文件中的int。

1）1GB的内存

2）10M的内存

对于空间的分析：

1）：

数据类型int，确定存在与否，不重复的int共40亿个，1GB内存=10亿字节，一对一存int是不够的，用位数组来存可以1对32。

2）：

10M的话，按1明显不行，采用划分法：分成x个区域，每个区域存（2^32/x）个数，同时需要者些位的空间来做标记，找到第一个区域数不全为1的再遍历一次。

最具效率的使用（10M全利用）就是分区的内存=位数组的内存，x * 4 = 2^32/x /8; 大概一个区域65KB。

巨人的口粮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
面经：海量数据算法题（1）

ps：结合IT博客大学习（http://blogread.cn/it/article/2455?f=sr ）和 cracking the coding interview 一些关键词：位数组：用一个位来记录是否存在等信息，节省空间。hash table：一个查找，插入等操作为常数级的容器，但是考虑处理数据所需内存。堆（数据结构）：内存允许，求前n大，前n小，一次处理。（如：最大堆求
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。