第一章：开篇

最新推荐文章于 2024-09-27 22:52:34 发布

li9213

最新推荐文章于 2024-09-27 22:52:34 发布

阅读量386

点赞数

分类专栏：编程珠玑

本文链接：https://blog.csdn.net/lisongfeng92130/article/details/40039681

版权

编程珠玑专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一章的一个问题：

问题描述：
输入：给定一个文件，里面最多含有n个不重复的正整数（也就是说可能含有少于n个不重复正整数），且其中每个数都小于等于n，n=10^7。
输出：得到按从小到大升序排列的包含所有输入的整数的列表。
条件：最多有大约1MB的内存空间可用，但磁盘空间足够。且要求运行时间在5分钟以下，10秒为最佳结果。

先写一下会用到的归并排序：

#include<stdio.h>
#include<stdlib.h>
void merge(int *a, int *b, int lenA, int lenB){
	int i = 0, j = 0;
	int k = 0;
	/*生成临时保存的数组*/
	int *newArray = malloc( (lenA + lenB) * sizeof(int) );
	/*判断k是否越界，判断i是否越界，j是否越界（其实k不用判断）*/
	for (; k < lenA + lenB && i < lenA && j < lenB; k++){
		if (a[i] < b[j]){
			newArray[k] = a[i];
			i++;
		}
		else{
			newArray[k] = b[j];
			j++;
		}
	}
	/*两个数组a，b中有一个已经遍历完毕，找出没有遍历完毕的*/
	if (i < lenA){
		for (; i < lenA; i++){
			newArray[k] = a[i];
			k++;
		}
	}
	else if (j < lenB){
		for (; j < lenB; j++){
			newArray[k] = b[j];
			k++;
		}
	}
	/*对数组进行重新赋值*/
	for (int i1 = 0; i1 < lenA + lenB; i1++){
		a[i1] = newArray[i1];
	}
	/*释放指针*/
	free(newArray);
}
void printArray(int *a,int len){
	for (int i = 0; i < len; i++){
		printf("%d ", a[i]);
	}
	printf("\n");
} 
void mergeSort(int *a, int len){
	/*当数组a只有一个元素时候，不用进行split&&merge过程*/
	if (len > 1){
		/*数组从0开始，左边有middle个，所以右边第一个元素下边为middle*/
		int middle = len / 2;
		int left = middle;
		/*数组b有len - middle个元素*/
		int right = len - middle;
		int *b = &a[middle];
		mergeSort(a, left);
		mergeSort(b, right);
		merge(a, b, left, right);

	}
}
int main(){
	
	int a[10] = { 1, 11, 8, 9, 0, 2, 4, 5, 6, 7 };
	printArray(a, 10);
	mergeSort(a, 10);
	printArray(a, 10);
}

还有外部排序用到的：胜者树和败者树算法：

给出参考博客：http://blog.csdn.net/wypblog/article/details/8074831

对对K个有序的序列，希望把他们归并到一个单独的有序序列中。我们可以每次比较者k个有序序列的第一个元素，找出最小，然后进行插入。

但这样会增加比较次数，所以引入了胜者树与败者树，来减少比较次数。

[1]胜者树与败者树是完全二叉树。就像是参加比赛一样，每个选手有不同的实力，两个选手PK,实力决定胜负，晋级下一轮，经过几轮之后，就能得到冠军。不同的是，胜者树的中间结点记录的是胜者的标号；而败者树的中间结点记录的败者的标号。胜者树与败者树可以在log(n)的时间内找到最值。任何一个叶子结点的值改变后，利用中间结点的信息，还是能够快速地找到最值。在k路归并排序中经常用到。

图一图二

胜者树：按照图一,这里找出最小值。八个数组，在叶子节点中已经放置了每个数组的最小值。节点的父节点保存了起子节点的最的最小值（也保存了是哪一个数组产生了这个节点）。

更新操作：当最小元素被读入文件中时候，例如，图一中最小元素1保存在第一个数组中，所以讲数组1中的元素的下一个进行读取，通过比较其兄弟节点的值，来更新父节点，一直到根节点结束。如图二所示。

败者树：

胜者树每次更新主要还要比较兄弟节点，因为其父节点保存了两个自己点的胜者，但是胜者已经读取过了。

败者树，在父节点中，保存了比较的败者，败者还未读取，所以更新操作时候，只需要将新添加的节点与父节点比较即可。

败者树根节点上又添加了一个节点（一个父节点），以保存每次的最终胜者，以进行更新操作。

如下图：

这个博客写的也挺好的 http://blog.csdn.net/whz_zb/article/details/7425152

用书上的位示图法。（前提是没有重复元素）

假如有10000000个元素，新建一个含有10000000个元素的数组

伪代码如下：

for(int i = 0;i<n;i++){
    bit[i] = 0;
}
读取操作：
    读取稳重中的i;
    bit[i] = 1;
输出：
for (int i = 0;i<n;i++){
    if(bit[i] == 1){
        输出i;
    }
}

generageData.cpp
#include<iostream>
#include<time.h>
#include<assert.h>
using namespace std;
const int size = 10000000;
int *num = new int[size];
int main(){
	FILE * outputFile = fopen("data.txt", "w");
	assert(outputFile);
	for (int i = 1; i < size; i++){
		num[i] = i;
	}
	srand((unsigned)time(NULL));
	int i, j;
	for (int n = 0; n <= size; n++){
		//洗牌算法
		i = (rand() * RAND_MAX + rand()) % 10000000;
		j = (rand() * RAND_MAX + rand()) % 10000000;
		int temp = num[j];
		num[j] = num[i];
		num[i] = temp;
	}
	for (int n = 0; n < size; n++){
		fprintf(outputFile, "%d\n", num[n]);
	}
	fclose(outputFile);
	return 0;
}

排序算法：

sort.cpp

#include<iostream>
#include<bitset>
#include<assert.h>
#include<time.h>
using namespace std;
const int max_number = 5000000;
/*两次读取*/
int main(){
	clock_t begin = clock();//定时开始
	bitset<max_number> bits;
	bits.reset();
	FILE *inputFile = fopen("data.txt", "r");
	assert(inputFile);
	int num;
	while(fscanf(inputFile, "%d", &num) != EOF){
		if(max_number > num && num >=0)
		{
			bits[num] = 1;
		}
	}

	cout << "step1"<< endl;
	FILE *outputFile = fopen("sort.txt", "w");
	assert(outputFile);
	for(int i = 0; i < max_number; i++){
		if (bits[i] == 1){
			fprintf(outputFile, "%d\n", i);
		}
	}
	// the second time scan to sort the data between 5000000 - 9999999  
	rewind(inputFile);//其实本函数相当于fseek(inputFile,0L,SEEK_SET); 
	bits.reset();
	cout << "step2" << endl;
	while (fscanf(inputFile, "%d", &num) != EOF){
		if (num >= max_number && num < 2 * max_number){
			bits[num - max_number] = 1;
		}
	}

	for (int i = 0; i < max_number; i++){
		if (bits[i] == 1){
			fprintf(outputFile, "%d\n", i + max_number);
		}
	}
	clock_t end = clock();
	cout << "位示图耗时：" << endl;
	cout << (end - begin) / CLK_TCK << "s" << endl;
	fclose(inputFile);
	fclose(outputFile);
	return 0;
}

磁盘文件多路归并排序的实现：

multiMerge.cpp
#include<iostream>
#include<time.h>
#include<algorithm>
using namespace std;
/*
第一步：分割，返回分割的临时文件个数；
第二步：读取分割的临时文件，读取数据进行排序。并进行内存排序；
第三步：对已经排序的临时文件进行合并；
*/
const char *inputFile = "inputFile.txt";
const char *outputFile = "outputFile.txt";
const int max_number = 10000000;
const int memCount = 1000000;
//随机产生一个文件
void generateData(const char *inFile, int n){
	if (n <= 0){
		printf("rand %d number is Wrong!",n);
	}
	FILE *infile = fopen(inFile, "w");
	srand(time(NULL));//设置随机发生器
	for (int i = 0; i < n; i++){
		fprintf(infile, "%d\n", rand());
	}
	fclose(infile);
}
char* tempFileName(int count);
int comp(const void *first_num, const void *second_num)
{
	return *(int *)first_num - *(int *)second_num;
}
int splitAndSortData(const char *inFile, int number){
	
	FILE *file = fopen(inFile, "r");
	int fileCount = 0;//统计第几个文件
	int inputNum = 0;//读取的那个数字
	int count = 0;//统计文件中读取的第几个数字；
	char *tempFile = tempFileName(fileCount);
	FILE *tf = fopen(tempFile, "w");
	int *array = (int *)malloc(memCount*sizeof(int));//保存读进来的数字，进行quickSort排序；

	while (fscanf(file, "%d", &inputNum) != EOF){

		array[count] = inputNum;
		count++;
		if (count == memCount){
			printf("%d\n",fileCount);
			tempFile = tempFileName(fileCount);
			tf = fopen(tempFile, "w");
			
			qsort(array, memCount, sizeof(int), comp);
			for (int i = 0; i < count; i++){
				fprintf(tf, "%d\n", array[i]);
			}
			fileCount++;
			count = 0;
			fclose(tf);
		}

	}
	if (count != 0){//当遇到EOF时候，文件达到memCount数量
		qsort(array, count, sizeof(int), comp);
		for (int i = 0; i < count; i++){
			fprintf(tf, "%d\n", array[i]);
		}
		fclose(tf);
	}
	return fileCount;
}
void merge(int fileCount){
	FILE *output = fopen(outputFile, "w");
	FILE **fp = (FILE**)malloc(fileCount * sizeof(FILE*));
	for (int i = 0; i < fileCount; i++){
		fp[i] = fopen(tempFileName(i), "r");
	}
	//用于找出最小的数，和文件中是否还有数
	int *minNum = (int *)malloc(fileCount*sizeof(int));
	bool *bits = (bool*)malloc(fileCount*sizeof(bool));
	for (int i = 0; i < fileCount; i++){
		fscanf(fp[i], "%d", &minNum[i]);
		bits[i] = true;
	}
	bool tag = true;
	//假如全是FALSE，则tag为FALSE；
	while (tag){
		int min = INT_MIN;
		int minCur = INT_MIN;
		for (int i = 0; i < fileCount; i++){
			if (bits[i] == true){
				if (minNum[i] >= min){
					min = minNum[i];
					minCur = i;
				}
			}
		}
		fprintf(output, "%d", min);
		if (fscanf(fp[minCur], "%d", &minNum[minCur]) == EOF){
			cout << "EOF-appear" << endl;
			bits[minCur] = false;
		};
		tag = false;
		for (int i = 0; i < fileCount; i++){
			if (bits[i] == true){
				tag = true;
			}
		}

	}



	cout << "SUCCESS" << endl;
}
char* tempFileName(int count){
	char *c = new char(64);
	//把string读取char数组中
	sprintf(c, "temp%d.txt", count);
	return c;
}
int main(){
	//生成数据；
	generateData(inputFile, max_number);
	//分割数据
 	int fileCount = splitAndSortData(inputFile,memCount);
	//合并数据
	merge(fileCount);
	return 0;
}

败者树版本：

有n个叶节点的完全二叉树，共有n - 1个分支为2的节点。加上败者树的一个存储最后胜者的节点，共有n个节点。