如何给10^7个数据量的磁盘文件排序

作者:July,yansha,5,编程艺术室。
出处:http://blog.csdn.net/v_JULY_v 

 

位图方案

{1,2,3,5,8,13}:

0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0

 

采取这个位图的方案是因为我们面对的这个问题的特殊性:1、输入数据限制在相对较小的范围内,2、数据没有重复

 

多路归并的位图方案:

但实际上,很多的时候,我们都面临着这样一个问题,文件太大,无法一次性放入内存中计算处理,那这个时候咋办呢?分而治之,大而化小,也就是把整个大文件分为若干大小的几块,然后分别对每一块进行排序,最后完成整个过程的排序。k趟算法可以在kn的时间开销内和n/k的空间开销内完成对最多n个小于n的无重复正整数的排序。

    比如可分为2块(k=2,1趟反正占用的内存只有1.25/2M),1~4999999,和5000000~9999999。先遍历一趟,首先排序处理1~4999999之间的整数(用5000000/8=625000个字的存储空间来排序0~4999999之间的整数),然后再第二趟,对5000001~1000000之间的整数进行排序处理

 

多路归并的归并排序:

1、内存排序
由于要求的可用内存为1MB,那么每次可以在内存中对250K的数据进行排序,然后将有序的数写入硬盘。
那么10M的数据需要循环40次,最终产生40个有序的文件。
2、归并排序

  1. 将每个文件最开始的数读入(由于有序,所以为该文件最小数),存放在一个大小为40的first_data数组中;
  2. 选择first_data数组中最小的数min_data,其对应的文件索引index;
  3. 将first_data数组中最小的数写入文件result,然后更新数组first_data(根据index读取该文件下一个数代替min_data);
  4. 判断是否所有数据都读取完毕,否则返回2。

所以,本程序按顺序分两步,第一步、Memory Sort,第二步、Merge Sort。程序的流程图,如下图所示(感谢F的绘制)。

将bit-map扩展一下,用2bit表示一个数即可,0表示未出现,1表示出现一次,2表示出现2次及以上。或者我们不用2bit来进行表示,我们用两个bit-map即可模拟实现这个2bit-map。

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用C语言中的文件操作函数和排序算法来实现文件内数据的排序。下面是一个示例程序,可以将文件中的整数按照从小到大的顺序排序,并将结果输出到另一个文件中。 ```c #include <stdio.h> #include <stdlib.h> #define MAX_LEN 1000 int main() { FILE *in_file, *out_file; int data[MAX_LEN], n = 0, i, j, temp; // 打开输入文件 in_file = fopen("input.txt", "r"); if (in_file == NULL) { printf("Error opening file!\n"); exit(1); } // 读取文件中的数据 while (fscanf(in_file, "%d", &data[n]) == 1) { n++; } // 关闭输入文件 fclose(in_file); // 使用冒泡排序算法排序 for (i = 0; i < n - 1; i++) { for (j = 0; j < n - i - 1; j++) { if (data[j] > data[j + 1]) { temp = data[j]; data[j] = data[j + 1]; data[j + 1] = temp; } } } // 打开输出文件 out_file = fopen("output.txt", "w"); if (out_file == NULL) { printf("Error opening file!\n"); exit(1); } // 将排序后的结果输出到文件中 for (i = 0; i < n; i++) { fprintf(out_file, "%d ", data[i]); } // 关闭输出文件 fclose(out_file); return 0; } ``` 在这个示例程序中,我们首先使用 `fopen` 函数打开输入文件,然后使用 `fscanf` 函数读取文件中的数据,并将其存储在数组 `data` 中。接着,我们使用冒泡排序算法对数组 `data` 进行排序。最后,我们使用 `fopen` 函数打开输出文件,然后使用 `fprintf` 函数将排序后的结果输出到文件中。注意,这里使用的是 `fprintf` 函数而不是 `fscanf` 函数,因为我们要输出到文件中而不是从文件中读取数据。 当然,还有其他的排序算法可以用来进行文件内数据的排序,比如选择排序、插入排序、快速排序等,具体使用哪种算法取决于数据量的大小和排序的需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值