文件中海量数据的排序

文件中海量数据的排序

题目:

跟之前堆排序可以解决TopK问题一样,我们来看看归并排序会用来解决什么问题?

image-20240520225512621

思路:

我们说归并排序是外排序。其实就是将数据分成一个个小段,在内存中进行排序,再拿出内存,在外部,比如文件(磁盘中),进行归并排序。

其实就是数据量太大,无法直接通过内存来排序,我们将其平均切割成100份,1000份等等,比如将其切割成原数据切割成100份,每份拿出来就可以放到内存中去排序,排完之后放到一个个小文件中。

这样就会有100个小文件,这100个小文件里面都是排序好的数据,然后让文件去归并,让上一个文件和下一个文件中的数据去归并,最终实现的就是全部数据都放在一个文件里,并且是有序的。

文件的合并思路如下图所示

image-20240520233956417

文件归并的过程就是在文件中进行的,就是在磁盘上进行的。这就是外排序

image-20240521111447944

具体的归并思路:

就是让两个文件归并后的文件跟下一个文件接着归并。

image-20240521114326528

让file1 指向mfile文件,file2指向下一个文件,继续归并file1 和 file2文件,生成mfile文件

image-20240521114307224

然后就一直循环,直至mfile文件和第 n 个文件归并后。就结束。

代码实现:

void MergeFile(const char* file1, const char* file2, const char* mfile)
{
	// 打开file1 文件
	FILE* fout1 = fopen(file1, "r");
	if (fout1 == NULL)
	{
		perror("MergeFile():fopen:fout1");
		exit(-1);
	}

	// 打开file2文件
	FILE* fout2 = fopen(file2, "r");
	if (fout2 == NULL)
	{
		perror("MergeFile():fopen:fout2");
		exit(-1);
	}

	// 打开mfile文件,准备写入。
	FILE* fin = fopen(mfile, "w");
	if (fin == NULL)
	{
		perror("MergeFile():fopen:fin");
		exit(-1);
	}

	// 将file1 和 file2的数据读出来,归并到mfile文件中
	int num1, num2;
	int ret1 = fscanf(fout1, "%d\n", &num1);
	int ret2 = fscanf(fout2, "%d\n", &num2);

	while (ret1 != EOF && ret2 != EOF) // 通过fscanf的返回值来判断是否有文件读取完毕
	{
		// 判断num1 和 num2 谁大谁小
		if (num1 < num2)
		{
			fprintf(fin, "%d\n", num1); // 小的数据放到fin指向的文件
			ret1 = fscanf(fout1, "%d\n", &num1);// 这一步是为了让文件指针++ 读取下一个数据
		}
		else
		{
			fprintf(fin, "%d\n", num2);
			ret2 = fscanf(fout2, "%d\n", &num2);
		}
	}
	
	// 走到这里,有可能是fout1 或者是 fout2 文件先读取完
	// 要把剩下的进行处理
	while (ret1 != EOF)
	{
		fprintf(fin, "%d\n", num1);
 		ret1 = fscanf(fout1, "%d\n", &num1);
	}

	while (ret2 != EOF)
	{
		fprintf(fin, "%d\n", num2);
		ret2 = fscanf(fout2, "%d\n", &num2);
	}

	// 关闭文件
	fclose(fout1);
	fclose(fout2);
	fclose(fin);
}

void MergeSortFile(const char* file)
{
	// 读取传进来的file文件
	FILE* fout = fopen(file, "r");
	if (fout == NULL)
	{
		perror("fopen:fout");
		exit(-1);
	}

	// 读取文件中的数据 ,将其分割成多组,在内存中进行排序,再放入对应文件中

	int n = 10; // 将文件中的数据切割成10个一组
	int num = 0;
	int* a = (int*)malloc(sizeof(int) * n); // 用于在内存中进行排序的数组
	int i = 0;
	int filei = 1; // 每组数据所存放的文件的下标
	char subfile[20]; // 用于存放各组数据文件的文件

	while (fscanf(fout, "%d\n", &num) != EOF) // 从文件中读取数据,写到num中 [读取失败返回EOF]
	{
		// 将读出来的数据放到一个数组中
		if (i < n - 1) // 只读前n - 1个到数组中 第n个在else中处理
		{
			a[i++] = num;
		}
		else
		{
			// 走进循环,fscanf还是读了一个数据到num上,要记得处理
			a[i] = num;

			// 走到这里,说明已经把文件中的数据全部读取到数组a中
			// 对其进行快排
			QuickSort(a, 0, n - 1);// n - 1是最后一个元素的下标

			// 排序完之后,我们将数据放回到文件中,这里我们选择每一组数据都放进一个文件中
			sprintf(subfile, "sub\\sub_sort%d.txt", filei++); // 创建各个文件的名字
			FILE* fin = fopen(subfile, "w"); // 打开subfile所记载的文件名,如果没有,由于是w形式 会自动创建一个
			if (fin == NULL)
			{
				perror("fopen:fin");
				exit(-1);
			}

			// 往文件里写,我们排好序的数组
			for (int j = 0; j < n; j++)
			{
				fprintf(fin, "%d\n", a[j]);
			}
			fclose(fin);

			i = 0; // 重置i
		}

	}

	// 现在文件中的数据, 被我们分成了一组组个数为n的有序数据,并放在了对应的文件中
	// 我们对这个文件,进行归并排序。  也就是在磁盘上进行文件内数据的归并,是外排序
	char mfile[100] = "12";
	char file1[100] = "sub\\sub_sort1.txt";
	char file2[100];
	char subsortfile[100] = "subsortfile\\12";  // 将归并后的mfile子文件都放到subsortfile文件中

	for (int i = 2; i <= n; i++)
	{
		sprintf(file2, "sub\\sub_sort%d.txt", i);

		// 读取file1 和 file2的数据  归并到subsortfile文件的mfile子文件中
		MergeFile(file1, file2, subsortfile);

		// 更新file1指向的文件名
		strcpy(file1, subsortfile);

		// 更新mfile
		sprintf(mfile, "%s%d", mfile, i + 1);

		// 更新subsortfile的mfile子文件名
		sprintf(subsortfile, "subsortfile\\%s", mfile);
	}

	fclose(fout);
}

测试效果如下:

Sort是原数据存放的地方,我们这里只放了小数据,便于我们调试。

image-20240521134218393

sub文件中:

image-20240521134237892

subsortfile文件中:

image-20240521134311397

最终的12345678910就是所有文件归并后的结果。

将一开始的Sort文件内的数据,有序的存放在1234568910这个文件中

image-20240524121012351

  • 7
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值