注:此博文为本人学习中的笔记
1.排序的概念及引用
1.1.排序的概念
排序:所谓排序,就是是一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作
稳定性:假定在待排序的记录序列中,存在多个具有相同的关键字记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,r[i] = r[j],且r[i]在r[j]之前,而在排序后的序列中,r[i]仍在r[j]之前,则称这种排序算法是稳定的,否则称为不稳定
内部排序:数据元素全部放在内存中的排序
外部排序:数据元素太多不能同时放在内存中,根据排序过程的要求不能在内外存之间移动数据的排序
2.常见的排序算法
插入排序:
直接插入排序,希尔排序
选择排序:
选择排序,堆排序
交换排序:
冒泡排序,快速排序
归并排序:
归并排序
2.1.插入排序
2.1.1.基本思想
直接插入排序是一种简单的插入排序法,其基本思想是:
把待排序的记录按其关键码值的大小逐个插入到一个已经排好序的有序序列中,直到所有的记录插入完为止,得到一个新的有序序列。实际中我们玩扑克牌理牌时,就用了插入排序思想。
2.1.2.直接插入排序
代码实现
public static void insort(int[] arr) {
for(int i = 1; i < arr.length; i++) {
int tmp = arr[i];
int j = i - 1;
for (; j >= 0 ; j--) {
if(arr[j] > tmp) {
arr[j + 1] = arr[j];
}else {
arr[j + 1] = tmp;
break;
}
}
arr[j + 1] = tmp;
}
}
直接插入排序的特性总结:
1.元素集合越接近有序,直接插入排序算法的时间效率越高
2.时间复杂度:O(N^2)
3.空间复杂度:O(1),它是一种稳定的排序算法
4.稳定性:稳定
2.1.3.希尔排序(缩小增量排序)
希尔排序法又称缩小增量法。希尔排序法的基本思想是:先选定一个整数,把待排序文件中所有记录分成多个组,所有距离为该整数的记录分在同一组内,并对每一组内的记录进行排序,然后缩小该整数,重复上述分组和排序工作。但该整数达到1时,所有记录在统一组内排好序
希尔排序根据gap进行分组排序,gap的取法各不相同,一开始将序列分为多组,逐渐减少,直到gap = 1,组数越多,每组数据越少,越容易排序,随着组数减少,每组趋近于有序,也变得容易排序。
希尔排序使用跳跃式的排序方法,这样能使大的数尽量靠后,小的数尽量靠前。
代码实现:
public static void shellSort(int[] arr) {
int gap = arr.length;
while(gap > 1) {
gap /= 2;
shell(arr, gap);
}
}
public static void shell(int[] arr, int gap) {
for (int i = gap; i < arr.length; i++) {
int tmp = arr[i];
int j = i - gap;
while(j >= 0) {
if(arr[j] > tmp) {
arr[j + gap] = arr[j];
}else {
arr[j + gap] = tmp;
break;
}
j -= gap;
}
arr[j + gap] = tmp;
}
}
特性总结:
1.希尔排序是对直接插入排序的优化。
2.当gap > 1时都是预排序,目的是让数组更接近于有序。当gap == 1,数组已经接近有序了,这样就会很快。这样整体而言,可以达到优化的效果
3.希尔排序的时间复杂度不好计算,因为gap的取值方法有很多,导致很难去计算。
4.稳定性:不稳定
2.2.选择排序
2.2.1.基本思想:
每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排完。
2.2.2.直接选择排序
遍历序列,每次都取当前下标后面的最小值和当前下标的值交换。
代码实现:
public static void selectSort(int[] arr) {
int minIndex = 0;
for (int i = 0; i < arr.length; i++) {
minIndex = i;
for (int j = i + 1; j < arr.length; j++) {
if(arr[j] < arr[minIndex]) {
minIndex = j;
}
}
swap(arr, i, minIndex);
}
}
public static void swap(int[] arr, int i, int j) {
int tmp = arr[i];
arr[i] = arr[j];
arr[j] = tmp;
}
特性总结:
1.直接选择排序思想非常好理解,但是效率不是很好。实际中很少使用
2.时间复杂度:O(N ^ 2)
3.空间复杂度:O(1)
4.稳定性:不稳定
2.2.3.堆排序
堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法,它是选择排序的一种,它是通过堆来进行选择数据,需要注意的是排升序要建大堆,排降序建小堆。
以排升序为例,先把传入的数据创建成堆,由于堆顶是最大值,将堆顶最后一个元素交换,然后改变向下调整的限度,进行向下调整,然后在改变堆顶交换元素的前提下以此循环。
代码实现:
public static void swap(int[] arr, int i, int j) {
int tmp = arr[i];
arr[i] = arr[j];
arr[j] = tmp;
}
public static void heapSort(int[] arr) {
createHeap(arr);
int i = arr.length - 1;
while(i > 0) {
swap(arr, 0, i);
siftDown(arr, 0, i);
i--;
}
}
public static void createHeap(int[] arr) {
int child = arr.length - 1;
int parent = (child - 1) / 2;
for (int i = parent; i >= 0; i--) {
siftDown(arr, i, arr.length);
}
}
public static void siftDown(int[] arr, int parent, int length) {
int child = 2 * parent + 1;
if(child + 1 < length && arr[child] < arr[child + 1]) {
child++;
}
while(child < length) {
if(arr[parent] < arr[child]) {
swap(arr, parent, child);
parent = child;
child = 2 * parent + 1;
}else {
break;
}
}
}
特性总结:
1.堆排序使用堆来选数,效率就高了很多
2.时间复杂度:O(N * logN)
3.空间复杂度:O(1)
4.稳定性:不稳定
2.3.交换排序
2.3.1.基本思想
所谓交换,就是根据序列中两个键值的比较结果来对换这两个记录在序列中的位置,交换排序的特点是:将键值较大的记录向序列的尾部移动,键值较小的记录向序列的前部移动
2.3.2.冒泡排序
冒泡排序在初学阶段就已经介绍过了,这里就不过多赘述了
代码实现:
public static void bubbleSort(int[] arr) {
for (int i = 0; i < arr.length - 1; i++) {
for (int j = 0; j < arr.length - 1 - i; j++) {
if(arr[j] > arr[j + 1]) {
swap(arr, j, j + 1);
}
}
}
}
特性总结:
1.冒泡排序是一种非常容易理解的排序
2.时间复杂度:O(N ^ 2)
3.空间复杂度:O(1)
4.稳定性:稳定
2.3.3.快速排序
快速排序是Hoare于1962年提出的一种二叉树结构的交换排序方式,其基本思想是:任取排序元素序列中的某元素作为基准值,按照该排序码将待排序集合分割成两子序列,左子序列中所有元素均小于基准值,右子序列中所有元素均大于基准值,然后最左右子序列重复该过程,直到所有元素都排列在现有位置上为止
找基准值的方法有三种,如下:
1.Hoare法
public static int partition1(int[] arr, int left, int right) {
int key = arr[left];
int num = left;
while(left < right) {
while(left < right && arr[right] >= key) {
right--;
}
while(left < right && arr[left] <= key) {
left++;
}
swap(arr, left, right);
}
swap(arr, num, left);
return left;
}
2.挖坑法
public static int partition2(int[] arr, int left, int right) {
int key = arr[left];
while(left < right) {
while(left < right && arr[right] >= key) {
right--;
}
arr[left] = arr[right];
while(left < right && arr[left] <= key) {
left++;
}
arr[right] = arr[left];
}
arr[left] = key;
return left;
}
3.前后指针法
private static int partition(int[] array, int left, int right) {
int prev = left;
int cur = left + 1;
while (cur <= right) {
if(array[cur] < array[left] && array[++prev] != array[cur]) {
swap(array, cur, prev);
}
cur++;
}
swap(array, prev, left);
return prev;
}
排序方法的代码如下:
public static void quickSort(int[] arr) {
quick(arr, 0, arr.length - 1);
}
public static void quick(int[] arr, int start, int end) {
if(start >= end) {
return;
}
int tmp = partition2(arr, start, end);
quick(arr, start, tmp - 1);
quick(arr, tmp + 1, end);
}
我们可以发现快速排序的代码与二叉树前序遍历的代码非常像,因此理解快速排序的递归框架是可以联想到二叉树。
快速排序的优化
1.使用三数取中法来找key值
2.当递归到较小的区间时,使用插入排序法
特性总结:
1.快速排序整体的综合性能和使用场景都是比较好的,所以才叫快速排序
2.时间复杂度:O(N * logN)
3.空间复杂度:O(logN)
4.稳定性:不稳定
2.4.归并排序
2.4.1.基本思想
归并排序是建立在归并操作上的一种有效的排序算法,该算法是采用分治法的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为二路归并。
代码实现:
public static void mergeSort(int[] arr) {
merge(arr, 0, arr.length - 1);
}
public static void merge(int[] arr, int left, int right) {
if(left >= right) {
return;
}
int mid = (left + right) / 2;
merge(arr, left, mid);
merge(arr, mid + 1, right);
sort(arr, left, right);
}
public static void sort(int[] arr, int left, int right) {
int mid = (left + right) / 2;
int s1 = left;
int s2 = mid + 1;
int[] tmp = new int[right + 1 - left];
int i = 0;
while(s1 <= mid && s2 <= right) {
if(arr[s1] >= arr[s2]) {
tmp[i++] = arr[s2++];
}else {
tmp[i++] = arr[s1++];
}
}
while(s1 <= mid) {
tmp[i++] = arr[s1++];
}
while(s2 <= right) {
tmp[i++] = arr[s2++];
}
System.arraycopy(tmp, 0, arr, left, tmp.length);
}
特性总结:
1.归并的缺点在于需要O(N)的空间复杂度,归并排序的思考更多的是解决再磁盘中的外排序问题
2.时间复杂度:O(N * logN)
3.空间复杂度:O(N)
4.稳定性:稳定
2.4.3.海量数据的排序问题
外部排序:排序过程需要再磁盘等外部存储进行的排序
前提:内存只有1G,需要排序的数据有100G
因为内存中无法把所有数据全部放下,所以需要外部排序,而归并排序是最常用的外部排序
1.先把文件切分成200份,每个512M
2.分别对512M排序,因为内存已经可以放的下,所以任意排序方式都可以
3.进行2路归并,同时对200份有序文件做归并过程,最终结果就有序了
3.其他非基于比较的排序
1.计数排序
思想:计数排序又称为鸽巢原理,是对哈希直接定址法的变形应用。操作步骤:
1.统计相同元素出现次数
2.根据统计结果将序列回收到原来的系列中
2.基数排序
3.桶排序