1.基本思想
基数排序是在同排序的基础上发展而来,两种排序都是分配排序的高级实现。分配排序的基本思想:排序过程无须比较关键字,而是通过“分配"和“收集”过程来实现排序。它们的时间复杂度可达到线性阶:O(n)。
先来看一下桶排序:
桶排序也称为箱排序(Bin Sort),其基本思想是:设置若干个桶,依次扫描待排序的记录R[0],R[1],…,R[n-1],把关键字在某个范围内的记录全都装入到第k个桶里(分配),然后按序号依次将各非空的桶首尾连接起来(收集)。
例如,要将一副混洗的52张扑克牌按点数A<2<…<J<Q<K排序,需设置13个“桶”,排序时依次将每张牌按点数放入相应的桶里,然后依次将这些桶首尾相接,就得到了按点数递增序排列的一副牌。
桶排序中,桶的个数取决于关键字的取值范围。因此桶排序要求关键字的类型是有限类型,否则可能要无限个桶。
一般情况下每个桶中存放多少个关键字相同的记录是无法预料的,故桶的类型应设计成链表为宜。
为保证排序是稳定的,分配过程中装箱及收集过程中的连接必须按先进先出原则进行。
对于桶排序来说,分配过程的时间是O(n);收集过程的时间为O(m) (采用链表来存储输入的待排序记录)或O(m+n)。因此,桶排序的时间为O(m+n)。若桶个数m的数量级为O(n),则桶排序的时间是线性的,即O(n)。
2.实例
public class RadixSort {
public static void main(String[] args) {
int[] arr = {53,3,542,748,14,214};
radixSort(arr);
}
public static void radixSort(int[] arr){
//得到最大位数
int max = arr[0];
for (int i = 1; i < arr.length; i++) {
if (arr[i] > max){
max = arr[i];
}
}
//得到最大位数是几位数
int maxLength = (max + "").length();
//二维数组包含十个一维数组,为防止数据溢出,则每个桶,大小定义为arr.length
int[][] bucket = new int[10][arr.length];
//bucketElementCunts[0],记录的是bucket[0]桶存放的数据个数
int[] bucketElementCunts = new int[10];
for (int l = 0, n= 1; l < maxLength; l++, n*=10) {
//第n轮对每个元素的位数进行排序 第一次是个位,第二次是十位,第三次是百位
for (int i = 0; i < arr.length; i++) {
//取出每个元素的个位
int digitOfElement = arr[i] / n % 10;
//放到对应的桶中
bucket[digitOfElement][bucketElementCunts[digitOfElement]] = arr[i];
bucketElementCunts[digitOfElement]++;
}
//遍历每个桶,将桶中的数据放回到数组中
int index = 0;
for (int j = 0; j < bucketElementCunts.length; j++) {
//判断桶中是否有数据
if (bucketElementCunts[j] != 0){
for (int k = 0; k < bucketElementCunts[j]; k++) {
arr[index++] = bucket[j][k];
}
}
bucketElementCunts[j] =0;
}
System.out.println("第"+(l+1)+"轮对个位排序处理:"+ Arrays.toString(arr));
}
}
}
实验结果:
3.算法分析
初看起来,基数排序的执行效率似乎好的让人无法相信,所有要做的只是把原始数据项从数组复制到链表,然后再复制回去。如果有10个数据项,则有20次复制,对每一位重复一次这个过程。假设对5位的数字排序,就需要20 * 5=100次复制。
如果有100个数据项,那么就有200 * 5=1000次复制。复制的次数与数据项的个数成正比,即O(n)。这是我们看到的效率最高的排序算法。
不幸的是,数据项越多,就需要更长的关键字,如果数据项增加10倍,那么关键字必须增加一位(多一轮排序)。复制的次数和数据项的个数与关键字长度成正比,可以认为关键字长度是N的对数。因此在大多数情况下,基数排序的执行效率倒退为O(NlogN),和快速排序差不多。