这篇是转发的:https://blog.csdn.net/longzuo/article/details/46409249
//多路归并外排序的实现
//将一个保存在磁盘上的文件内的数据进行排序
//基本思路是:设文件共有m*n条记录, 内存中每次可以对m条记录进行排序
//则排序过程分两步:
//第一步:从磁盘中读入m条记录到内存; 在内存排序; 将排好序的数据写入新文件;
// 重复上述过程n次 共生成n个新文件
//第二步:
// 分配一个文件指针数组,包含n个文件指针,分别指向n个新文件;
// 分配一个整数数组,大小为n,分别顺序读取各个文件的数据;
// 分配一个布尔数组,大小为n,指示各个文件是否读完;
// 将读入的整数数组中最小的值写入外存,并继续往后读取对应的文件(取得最小值的那个文件指针往该文件后面后移一位),然后重复这一步,直到所有的文件都读完;
这种算法思想常用于大文件排序,文件大小超出内存容量,可以每次读取内存容量的数据进行内存排序,然后进行归并
采用类似思想还可以解决很多海量数据处理的问题,当内存容量不足以一次处理时,通常都是先将大文件分为小文件,然后分而治之