第一章:开篇

第一章的一个问题:

问题描述:
输入:给定一个文件,里面最多含有n个不重复的正整数(也就是说可能含有少于n个不重复正整数),且其中每个数都小于等于n,n=10^7。
输出:得到按从小到大升序排列的包含所有输入的整数的列表。
条件:最多有大约1MB的内存空间可用,但磁盘空间足够。且要求运行时间在5分钟以下,10秒为最佳结果。

先写一下会用到的归并排序:

#include<stdio.h>
#include<stdlib.h>
void merge(int *a, int *b, int lenA, int lenB){
	int i = 0, j = 0;
	int k = 0;
	/*生成临时保存的数组*/
	int *newArray = malloc( (lenA + lenB) * sizeof(int) );
	/*判断k是否越界,判断i是否越界,j是否越界(其实k不用判断)*/
	for (; k < lenA + lenB && i < lenA && j < lenB; k++){
		if (a[i] < b[j]){
			newArray[k] = a[i];
			i++;
		}
		else{
			newArray[k] = b[j];
			j++;
		}
	}
	/*两个数组a,b中有一个已经遍历完毕,找出没有遍历完毕的*/
	if (i < lenA){
		for (; i < lenA; i++){
			newArray[k] = a[i];
			k++;
		}
	}
	else if (j < lenB){
		for (; j < lenB; j++){
			newArray[k] = b[j];
			k++;
		}
	}
	/*对数组进行重新赋值*/
	for (int i1 = 0; i1 < lenA + lenB; i1++){
		a[i1] = newArray[i1];
	}
	/*释放指针*/
	free(newArray);
}
void printArray(int *a,int len){
	for (int i = 0; i < len; i++){
		printf("%d ", a[i]);
	}
	printf("\n");
} 
void mergeSort(int *a, int len){
	/*当数组a只有一个元素时候,不用进行split&&merge过程*/
	if (len > 1){
		/*数组从0开始,左边有middle个,所以右边第一个元素下边为middle*/
		int middle = len / 2;
		int left = middle;
		/*数组b有len - middle个元素*/
		int right = len - middle;
		int *b = &a[middle];
		mergeSort(a, left);
		mergeSort(b, right);
		merge(a, b, left, right);

	}
}
int main(){
	
	int a[10] = { 1, 11, 8, 9, 0, 2, 4, 5, 6, 7 };
	printArray(a, 10);
	mergeSort(a, 10);
	printArray(a, 10);
}

还有外部排序用到的:胜者树和败者树算法:

给出参考博客:http://blog.csdn.net/wypblog/article/details/8074831

对对K个有序的序列,希望把他们归并到一个单独的有序序列中。我们可以每次比较者k个有序序列的第一个元素,找出最小,然后进行插入。

但这样会增加比较次数,所以引入了胜者树与败者树,来减少比较次数。

[1]胜者树与败者树是完全二叉树。就像是参加比赛一样,每个选手有不同的实力,两个选手PK,实力决定胜负,晋级下一轮,经过几轮之后,就能得到冠军。不同的是,胜者树的中间结点记录的是胜者的标号;而败者树的中间结点记录的败者的标号。 胜者树与败者树可以在log(n)的时间内找到最值。任何一个叶子结点的值改变后,利用中间结点的信息,还是能够快速地找到最值。在k路归并排序中经常用到。


                           

                                                            图一                                                                                                                                                      图二

胜者树:按照图一,这里找出最小值。八个数组,在叶子节点中已经放置了每个数组的最小值。节点的父节点保存了起子节点的最的最小值(也保存了是哪一个数组产生了这个节点)。

更新操作:当最小元素被读入文件中时候,例如,图一中最小元素1保存在第一个数组中,所以讲数组1中的元素的下一个进行读取,通过比较其兄弟节点的值,来更新父节点,一直到根节点结束。如图二所示。

败者树:

胜者树每次更新主要还要比较兄弟节点,因为其父节点保存了两个自己点的胜者,但是胜者已经读取过了。

败者树,在父节点中,保存了比较的败者,败者还未读取,所以更新操作时候,只需要将新添加的节点与父节点比较即可。

败者树根节点上又添加了一个节点(一个父节点),以保存每次的最终胜者,以进行更新操作。

如下图:

                                                                    

这个博客写的也挺好的 http://blog.csdn.net/whz_zb/article/details/7425152

用书上的位示图法。(前提是没有重复元素)

假如有10000000个元素,新建一个含有10000000个元素的数组

伪代码如下:

for(int i = 0;i<n;i++){
    bit[i] = 0;
}
读取操作:
    读取稳重中的i;
    bit[i] = 1;
输出:
for (int i = 0;i<n;i++){
    if(bit[i] == 1){
        输出i;
    }
}

generageData.cpp
#include<iostream>
#include<time.h>
#include<assert.h>
using namespace std;
const int size = 10000000;
int *num = new int[size];
int main(){
	FILE * outputFile = fopen("data.txt", "w");
	assert(outputFile);
	for (int i = 1; i < size; i++){
		num[i] = i;
	}
	srand((unsigned)time(NULL));
	int i, j;
	for (int n = 0; n <= size; n++){
		//洗牌算法
		i = (rand() * RAND_MAX + rand()) % 10000000;
		j = (rand() * RAND_MAX + rand()) % 10000000;
		int temp = num[j];
		num[j] = num[i];
		num[i] = temp;
	}
	for (int n = 0; n < size; n++){
		fprintf(outputFile, "%d\n", num[n]);
	}
	fclose(outputFile);
	return 0;
}
排序算法:

sort.cpp
#include<iostream>
#include<bitset>
#include<assert.h>
#include<time.h>
using namespace std;
const int max_number = 5000000;
/*两次读取*/
int main(){
	clock_t begin = clock();//定时开始
	bitset<max_number> bits;
	bits.reset();
	FILE *inputFile = fopen("data.txt", "r");
	assert(inputFile);
	int num;
	while(fscanf(inputFile, "%d", &num) != EOF){
		if(max_number > num && num >=0)
		{
			bits[num] = 1;
		}
	}

	cout << "step1"<< endl;
	FILE *outputFile = fopen("sort.txt", "w");
	assert(outputFile);
	for(int i = 0; i < max_number; i++){
		if (bits[i] == 1){
			fprintf(outputFile, "%d\n", i);
		}
	}
	// the second time scan to sort the data between 5000000 - 9999999  
	rewind(inputFile);//其实本函数相当于fseek(inputFile,0L,SEEK_SET); 
	bits.reset();
	cout << "step2" << endl;
	while (fscanf(inputFile, "%d", &num) != EOF){
		if (num >= max_number && num < 2 * max_number){
			bits[num - max_number] = 1;
		}
	}

	for (int i = 0; i < max_number; i++){
		if (bits[i] == 1){
			fprintf(outputFile, "%d\n", i + max_number);
		}
	}
	clock_t end = clock();
	cout << "位示图耗时:" << endl;
	cout << (end - begin) / CLK_TCK << "s" << endl;
	fclose(inputFile);
	fclose(outputFile);
	return 0;
}

磁盘文件多路归并排序的实现:

multiMerge.cpp
#include<iostream>
#include<time.h>
#include<algorithm>
using namespace std;
/*
第一步:分割,返回分割的临时文件个数;
第二步:读取分割的临时文件,读取数据进行排序。并进行内存排序;
第三步:对已经排序的临时文件进行合并;
*/
const char *inputFile = "inputFile.txt";
const char *outputFile = "outputFile.txt";
const int max_number = 10000000;
const int memCount = 1000000;
//随机产生一个文件
void generateData(const char *inFile, int n){
	if (n <= 0){
		printf("rand %d number is Wrong!",n);
	}
	FILE *infile = fopen(inFile, "w");
	srand(time(NULL));//设置随机发生器
	for (int i = 0; i < n; i++){
		fprintf(infile, "%d\n", rand());
	}
	fclose(infile);
}
char* tempFileName(int count);
int comp(const void *first_num, const void *second_num)
{
	return *(int *)first_num - *(int *)second_num;
}
int splitAndSortData(const char *inFile, int number){
	
	FILE *file = fopen(inFile, "r");
	int fileCount = 0;//统计第几个文件
	int inputNum = 0;//读取的那个数字
	int count = 0;//统计文件中读取的第几个数字;
	char *tempFile = tempFileName(fileCount);
	FILE *tf = fopen(tempFile, "w");
	int *array = (int *)malloc(memCount*sizeof(int));//保存读进来的数字,进行quickSort排序;

	while (fscanf(file, "%d", &inputNum) != EOF){

		array[count] = inputNum;
		count++;
		if (count == memCount){
			printf("%d\n",fileCount);
			tempFile = tempFileName(fileCount);
			tf = fopen(tempFile, "w");
			
			qsort(array, memCount, sizeof(int), comp);
			for (int i = 0; i < count; i++){
				fprintf(tf, "%d\n", array[i]);
			}
			fileCount++;
			count = 0;
			fclose(tf);
		}

	}
	if (count != 0){//当遇到EOF时候,文件达到memCount数量
		qsort(array, count, sizeof(int), comp);
		for (int i = 0; i < count; i++){
			fprintf(tf, "%d\n", array[i]);
		}
		fclose(tf);
	}
	return fileCount;
}
void merge(int fileCount){
	FILE *output = fopen(outputFile, "w");
	FILE **fp = (FILE**)malloc(fileCount * sizeof(FILE*));
	for (int i = 0; i < fileCount; i++){
		fp[i] = fopen(tempFileName(i), "r");
	}
	//用于找出最小的数,和文件中是否还有数
	int *minNum = (int *)malloc(fileCount*sizeof(int));
	bool *bits = (bool*)malloc(fileCount*sizeof(bool));
	for (int i = 0; i < fileCount; i++){
		fscanf(fp[i], "%d", &minNum[i]);
		bits[i] = true;
	}
	bool tag = true;
	//假如全是FALSE,则tag为FALSE;
	while (tag){
		int min = INT_MIN;
		int minCur = INT_MIN;
		for (int i = 0; i < fileCount; i++){
			if (bits[i] == true){
				if (minNum[i] >= min){
					min = minNum[i];
					minCur = i;
				}
			}
		}
		fprintf(output, "%d", min);
		if (fscanf(fp[minCur], "%d", &minNum[minCur]) == EOF){
			cout << "EOF-appear" << endl;
			bits[minCur] = false;
		};
		tag = false;
		for (int i = 0; i < fileCount; i++){
			if (bits[i] == true){
				tag = true;
			}
		}

	}



	cout << "SUCCESS" << endl;
}
char* tempFileName(int count){
	char *c = new char(64);
	//把string读取char数组中
	sprintf(c, "temp%d.txt", count);
	return c;
}
int main(){
	//生成数据;
	generateData(inputFile, max_number);
	//分割数据
 	int fileCount = splitAndSortData(inputFile,memCount);
	//合并数据
	merge(fileCount);
	return 0;
}
败者树版本:

有n个叶节点的完全二叉树,共有n - 1个分支为2的节点。加上败者树的一个存储最后胜者的节点,共有n个节点。




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值