海量数据:所谓海量数据在内存中存不下的数据即称为海量数据。
内存存不下,内存和硬盘存放数据的特点不同,所以算法需要做相应的调整。
海量数据的排序方法——归并排序(多路归并)
基本思想:
1.把硬盘中的数据平均分成n份(每份大小较小)
2.每一份依次放入内存中进行排序(比如使用快排),然后放回硬盘中。
3.然后硬盘就得到了n份有序的数据,准备开始进行归并。
4.
(1)首先取出每份有序数据中最小的那个数作为代表,放入内存中,
(2)然后这些代表中最小的那个代表,然后硬盘将这一部分数据放到放到硬盘里面的结果文件中(尾插)