Cracking the coding interview--Q12.3

最新推荐文章于 2017-08-29 17:19:46 发布

cfanrCoder

最新推荐文章于 2017-08-29 17:19:46 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： Cracking the coding interview

本文链接：https://blog.csdn.net/navyifanr/article/details/21296081

Cracking the coding interview 专栏收录该内容

100 篇文章

订阅专栏

本文提供了一种在大型数据集中查找未出现整数的算法。通过BitMap算法处理40亿整数的数据集，并考虑不同内存限制条件下的实现方案。

题目

原文：

Given an input file with four billion integers, provide an algorithm to generate an integer which is not contained in the file. Assume you have 1 GB of memory.
FOLLOW UP
What if you have only 10 MB of memory?

译文：

给一个有40亿个整型数据的输入文件，写出一个算法找出这个文件中不包含的一个数，假设有1GB的内存。

如果只有10MB的内存呢？

解答

先计算40亿数据的容量，大约需要40*10^8*4B=16GB容量，所以不能直接一次性将全部数据存入内存；我们可以通过用计算机的位标记某个数是否出现，就可以减少内存的使用。也就是用Bit Map算法，相关介绍：海量数据处理算法—Bit-Map http://blog.csdn.net/hguisu/article/details/7880288

若用Bit Map算法，则需要内存约为：40*10^8byte=5*10^8B=0.5GB，代码如下：

/*
为了减少运算时间，将数据改为100万，不过算法是一样的
*/
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;

class Q12_3{
	public static int dataSize=1000000;
	
	public static void createDataFile() throws IOException{
		BufferedWriter writer = new BufferedWriter(new FileWriter("1Billion.dat",false));
		for(int i=0;i<dataSize;i++){
			if(i!=10){                    //set 10 missing
			writer.write(String.valueOf(i));
			writer.newLine();
			}
		}
		writer.close();
	}
	public static int[] createBitMap(File file,int c) throws IOException{
		int size=c/32;
		if(c%32!=0){
			size+=1;
		}
		int[] bitmap = new int[size];
		BufferedReader reader = new BufferedReader(new FileReader(file));
		String line;
		while((line=reader.readLine())!=null){
			int number = Integer.valueOf(line);
			int idx = number/32;
			int offset = number%32;
			int i=1<<offset;
			bitmap[idx]=bitmap[idx]|i;
		}
		reader.close();
		return bitmap;
	}
	
	public static int findMissing(int[] bitmap){
		int n=0;
		for(int i=0;i<bitmap.length;i++){
			int k=1;
			for(int j=0;j<32;j++){
				if((bitmap[i]&k)!=0){
					k<<=1;
					n++;
				}else{
					return n ;
				}
			}
		}
		return  n;
	}
	
	public static void main(String[] args) throws IOException {
		createDataFile();
		File file = new File("1Billion.dat");
		int[] bitmap = createBitMap(file,dataSize);
		int missing=findMissing(bitmap);
		System.out.println(missing);
		
	}
}

若只能用10MB的内存，就只能用分块查找+BitMap了，详细参考：http://hawstein.com/posts/12.3.html

---EOF---