排序：一些排序的总结

最新推荐文章于 2022-10-13 21:45:51 发布

Kevin_Leong

最新推荐文章于 2022-10-13 21:45:51 发布

阅读量748

点赞数

文章标签：排序

本文链接：https://blog.csdn.net/losophy/article/details/51791501

版权

【算法】专栏收录该内容

21 篇文章 0 订阅

订阅专栏

稳定性

假定在待排序的记录序列中，存在多个具有相同的关键字的记录，若经过排序，这些记录的相对次序保持不变，即在原序列中，ri=rj，且ri在rj之前，而在排序后的序列中，ri仍在rj之前，则称这种排序算法是稳定的；否则称为不稳定的。
排序算法如果是稳定的，那么从一个键上排序，然后再从另一个键上排序，第一个键排序的结果可以为第二个键排序所用。还有就是节省时间。
堆排序、快速排序、希尔排序、直接选择排序不是稳定的排序算法，而基数排序、冒泡排序、直接插入排序、折半插入排序、归并排序是稳定的排序算法。

内外排序

根据排序过程中涉及的存储器不同，可以讲排序方法分为两大类：一类是内部排序，指的是待排序的几率存放在内存中进行的排序过程；另一类的外部排序，指的是排序中要对外存储器进行访问的排序过程。

我们一般提到排序都是指内排序，比如快速排序，堆排序，归并排序等，所谓内排序就是可以在内存中完成的排序。RAM的访问速度大约是磁盘的25万倍，我们当然希望如果可以的话都是内排来完成。但对于大数据集来说，内存是远远不够的，这时候就涉及到外排序的知识了。

外部排序指的是大文件的排序，即待排序的记录存储在外存储器上，待排序的文件无法一次装入内存，需要在内存和外部存储器之间进行多次数据交换，以达到排序整个文件的目的。

外部排序最常用的算法是多路归并排序，即将原文件分解成多个能够一次性装人内存的部分，分别把每一部分调入内存完成排序。然后，对已经排序的子文件进行归并排序。
一般来说外排序分为两个步骤：预处理和合并排序。即首先根据内存的大小，将有n个记录的磁盘文件分批读入内存，采用有效的内存排序方法进行排序，将其预处理为若干个有序的子文件，这些有序子文件就是初始顺串，然后采用合并的方法将这些初始顺串逐趟合并成一个有序文件。

[外排序适用范围]

大数据的排序，去重基本原理及要点：外排序的归并方法，置换选择，败者树原理，最优归并树扩展。

问题实例：1).有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词。这个数据具有很明显的特点，词的大小为16个字节，但是内存只有1m做hash有些不够，所以可以用来排序。内存可以当输入缓冲区使用。

基于比较的排序与非基于比较的排序

一般将基于比较进行的排序称为比较排序。

主要存在插入排序、堆排序、增量排序（shell排序）、归并排序、快速排序，每一种排序算法都有自己的优缺点，比如插入法排序适用于那些长度短的排序，对于长的表，有些爱莫能助啊，堆排序主要是依据了二叉堆的特性，但是创建堆的过程也是一个复杂的问题，增量排序的过程是一个不断精确的过程，但是目前也只是一个经验方式。归并排序是一个递归的问题，采用分治的思想实现，但是这种算法需要额外的存储空间，快速排序虽然是实践中比较常用的算法，但是对于有序的数组采用快速排序就是灾难。比较型算法的时间复杂度最优也只能到达O(NlogN)。

而非基于比较的排序，如计数排序，桶排序，和在此基础上的基数排序，则可以突破O(NlogN)时间下限。但要注意的是，非基于比较的排序算法的使用都是有条件限制的，例如元素的大小限制，相反，基于比较的排序则没有这种限制(在一定范围内)。但并非因为有条件限制就会使非基于比较的排序算法变得无用，对于特定场合有着特殊的性质数据，非基于比较的排序算法则能够非常巧妙地解决。