1、基数排序(桶排序)介绍
(1)基数排序(radix sort)属于“分配式排序”(distribution sort),又称“桶子法”(bucket sort)或bin sort,顾名思义,它是通过键值的各个位的值,将要排序的元素分配至某些“桶”中,达到排序的作用
(2)基数排序法是属于稳定性的排序,基数排序法的是效率高的稳定性排序法
(3)基数排序(Radix Sort)是桶排序的扩展
(4)基数排序是1887年赫尔曼·何乐礼发明的。它是这样实现的:将整数按位数切割成不同的数字,然后按每个位数分别比较。
2、基数排序基本思想
(1)将所有待比较数值统一为同样的数位长度,数位较短的数前面补零。然后,从最低位开始,依次进行一次排序。这样从最低位排序一直到最高位排序完成以后, 数列就变成一个有序序列。
(2)将数组 {53, 3, 542, 748, 14, 214} 使用基数排序, 进行升序排序。
第1轮排序 [按照个位排序]: 说明:事先准备10个数组(10个桶),0-9 分别对应位数的 0-9
(a) 将各个数,按照个位大小放入到对应的各个数组中
(b) 然后从 0-9 个数组/桶,依次按照加入元素的先后顺序取出
第1轮排序后:542、53、3、14、214、748
第2轮排序 [按照十位排序]
(1) 将各个数,按照十位大小放入到对应的各个数组中
(2) 然后从 0-9 个数组/桶,依次按照加入元素的先后顺序取出
第2轮排序后: 3、14、214、542、748、53
第3轮排序 [按照百位排序]
(1) 将各个数,按照百位大小放入到对应的各个数组中
(2) 然后从 0-9 个数组/桶,依次按照加入元素的先后顺序取出
第3轮排序后:3、14、53、214、542、748
排序完成。这里可以明显看出排序次数和最大数的位数有关。
3、代码实现
第一轮
//定义二维数组,表示10个桶,每个桶就是一个一维数组
//1、二维数组包含10个一位数组,
//2、防止在放数溢出,把每个一维数组的大小(桶的大小)设置arr.length
//3、基数排序是用空间换时间的经典算法
int[][] bucket = new int [10][arr.length];
//为了记录每个桶中实际存放了多少数量,定义一个一位数组来记录各个桶每次放入的数据个数
//可以理解:bucketElementCounts[0]记录的就是bucket[0]桶的放入数据的个数
int[] bucketElementCounts =new int[10];
//第一轮排序(针对每个元素的个位进行排序)
for(int j=0;j<arr.length;j++){
//取出每个元素的个位
int digitOfElement = arr[j] % 10;
//放入到对应的桶中
//二维数组bucket的digitOfElement变量就对应桶号
//二维数组bucket的bucketElementCounts[digitOfElement]就代表digitOfElement桶存放的数据的个数
bucket[digitOfElement][bucketElementCounts[digitOfElement]] = arr[j];
bucketElementCounts[digitOfElement]++; //个数自加
}
//按照这个桶的顺序(一维数组的下标依次取出数据,放入原来数组)
int index = 0;
//遍历每一个桶,并将每个桶的数据放入到原数组
for(int k=0;k<bucketElementCounts.length;k++){
//如果桶中有数据,我们才放入到原素组
if(bucketElementCounts[k] != 0){
//循环该桶即第k个桶(即第k个一维数组)
for(int l=0;l<bucketElementCounts[k];l++){
//取出元素放入到arr
arr[index] = bucket[k][l];
index++; //原数组下标自加
}
}
//第一轮处理后,需要将每个bucketElementCounts[k]置0
bucketElementCounts[k] = 0;
}
//打印结果
System.out.println("第一轮排序之后,对个位的处理:");
for(int k=0;k<arr.length;k++){
System.out.print(arr[k]+" ");
}
System.out.println();
(1)这里难理解是二维数组bucket的意义。例如bucket[3][4]就表示的是原数组中个位数是3的数共有4个。
//取出每个元素的个位
int digitOfElement = arr[j] % 10;
//放入到对应的桶中
//二维数组bucket的digitOfElement变量就对应桶号
//二维数组bucket的bucketElementCounts[digitOfElement]就代表digitOfElement桶存放的数据的个数
bucket[digitOfElement][bucketElementCounts[digitOfElement]] = arr[j];
bucketElementCounts[digitOfElement]++;
(2)对于这三行代码,先拿到元素的个位数,然后将原数据放到其个位数对应的二维数组中,
bucketElementCounts[digitOfElement]对应的是个位数为digitOfElement的数量。
(3)这里有一个处理,就是将计数置为0,(bucketElementCounts[k] = 0;)这个为了在第二轮处理十位数的时候,从0开始计数。
第二轮
for(int j=0;j<arr.length;j++){
//取出每个元素的十位
int digitOfElement = arr[j] /10 % 10;
//放入到对应的桶中
bucket[digitOfElement][bucketElementCounts[digitOfElement]] = arr[j];
bucketElementCounts[digitOfElement]++;
}
//按照这个桶的顺序(一维数组的下标依次取出数据,放入原来数组)
index = 0;
//遍历每一个桶,并将每个桶的数据放入到原数组
for(int k=0;k<bucketElementCounts.length;k++){
//如果桶中有数据,我们才放入到原素组
if(bucketElementCounts[k] != 0){
//循环该桶即第k个桶(即第k个一维数组)
for(int l=0;l<bucketElementCounts[k];l++){
//取出元素放入到arr
arr[index] = bucket[k][l];
index++;
}
}
//第二轮处理后,需要将每个bucketElementCounts[k]置0
bucketElementCounts[k] = 0;
}
//打印结果
System.out.println("第二轮排序之后,对十位的处理:");
for(int k=0;k<arr.length;k++){
System.out.print(arr[k]+" ");
}
System.out.println();
第三轮
for(int j=0;j<arr.length;j++){
//取出每个元素的百位
int digitOfElement = arr[j] /100 % 10;
//放入到对应的桶中
bucket[digitOfElement][bucketElementCounts[digitOfElement]] = arr[j];
bucketElementCounts[digitOfElement]++;
}
//按照这个桶的顺序(一维数组的下标依次取出数据,放入原来数组)
index = 0;
//遍历每一个桶,并将每个桶的数据放入到原数组
for(int k=0;k<bucketElementCounts.length;k++){
//如果桶中有数据,我们才放入到原素组
if(bucketElementCounts[k] != 0){
//循环该桶即第k个桶(即第k个一维数组)
for(int l=0;l<bucketElementCounts[k];l++){
//取出元素放入到arr
arr[index] = bucket[k][l];
index++;
}
}
//第三轮处理后,需要将每个bucketElementCounts[k]置0
bucketElementCounts[k] = 0;
}
//打印结果
System.out.println("第二轮排序之后,对十位的处理:");
for(int k=0;k<arr.length;k++){
System.out.print(arr[k]+" ");
}
System.out.println();
总结规律:遍历的次数就是最大值的位数
总的代码
public static void radixSort(int[] arr){
//根据推导,得到最终的代码
//1、得到数组中最大数的位数
int max =arr[0]; //假设第一个数最大
for(int i=1;i<arr.length;i++){
if(arr[i]>max){
max= arr[i];
}
}
//得到最大数的位数
int maxLen =(max+"").length();
int[][] bucket = new int [10][arr.length];
int[] bucketElementCounts =new int[10];
// 使用循环将代码处理
for (int i = 0,n=1; i < maxLen; i++,n*=10) {
for (int j = 0; j < arr.length; j++) {
// 取出每个元素的个位、十位、百位
int digitOfElement = arr[j]/n % 10;
// 放入到对应的桶中
bucket[digitOfElement][bucketElementCounts[digitOfElement]] = arr[j];
bucketElementCounts[digitOfElement]++;
}
// 按照这个桶的顺序(一维数组的下标依次取出数据,放入原来数组)
int index = 0;
// 遍历每一个桶,并将每个桶的数据放入到原数组
for (int k = 0; k < bucketElementCounts.length; k++) {
// 如果桶中有数据,我们才放入到原素组
if (bucketElementCounts[k] != 0) {
// 循环该桶即第k个桶(即第k个一维数组)
for (int l = 0; l < bucketElementCounts[k]; l++) {
// 取出元素放入到arr
arr[index] = bucket[k][l];
index++;
}
}
// 第i+1轮处理后,需要将每个bucketElementCounts[k]置0
bucketElementCounts[k] = 0;
}
// 打印结果
// System.out.println("第"+(i+1)+"轮排序之后,对个位的处理:");
// for (int k = 0; k < arr.length; k++) {
// System.out.print(arr[k] + " ");
// }
// System.out.println();
}
}
4、时间测试
public static void TimeTest() {
// 测试8000000个数据 80000000 *11*4/1024/1024/1024 =3.3G
int arr[] = new int[8000000];
for (int i = 0; i < 8000000; i++) {
arr[i] = (int) (Math.random() * 80000000); // 随机生成【0.80000】
}
// 写一个测试时间
Date date1 = new Date();
SimpleDateFormat simple1 = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
String str1 = simple1.format(date1);
System.out.println("排序前的时间:" + str1);
radixSort(arr);
Date date2 = new Date();
String str2 = simple1.format(date2);
System.out.println("排序前的时间:" + str2);
}
5、基数排序说明
(1)基数排序是对传统桶排序的扩展,速度很快;
(2)基数排序是经典的空间换时间的方式,占用内存很大, 当对海量数据排序时,容易造成 OutOfMemoryError;
(3)基数排序时稳定的。[注:假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,r[i]=r[j],且r[i]在r[j]之前,而在排序后的序列中,r[i]仍在r[j]之前,则称这种排序算法是稳定的;否则称为不稳定的] ;
(4)有负数的数组,我们不用基数排序来进行排序, 如果要支持负数,参考: https://code.i-harness.com/zh-CN/q/e98fa9