ps:结合IT博客大学习(http://blogread.cn/it/article/2455?f=sr )和 cracking the coding interview
一些关键词:
位数组:用一个位来记录是否存在等信息,节省空间。
hash table:一个查找,插入等操作为常数级的容器,但是考虑处理数据所需内存。
堆(数据结构):内存允许,求前n大,前n小,一次处理。(如:最大堆求前n小,将数值与堆中最大的数比较,若大于则替换)
划分:数据太大不能全部进入内存,多次划分缩小范围。
外排序:内存不足,大数据去重。
题目1:
一个存储40亿个int的文件,给出算法,生成一个不在该文件中的int。
1)1GB的内存
2)10M的内存
对于空间的分析:
1):
数据类型int,确定存在与否,不重复的int共40亿个,1GB内存=10亿字节,一对一存int是不够的,用位数组来存可以1对32。
2):
10M的话,按1明显不行,采用划分法:分成x个区域,每个区域存(2^32/x)个数,同时需要者些位的空间来做标记,找到第一个区域数不全为1的再遍历一次。
最具效率的使用(10M全利用)就是分区的内存=位数组的内存,x * 4 = 2^32/x /8; 大概一个区域65KB。