1.大体思路
桶排序的算法思想:是将阵列分到有限数量的桶子里。每个桶子再个别排序(有可能再使用别的排序算法或是以递回方式继续使用桶排序进行排序)。桶排序是鸽巢排序的一种归纳结果。当要被排序的阵列内的数值是均匀分配的时候,桶排序使用线性时间(Θ(n))。但桶排序并不是比较排序,他不受到 O(n log n) 下限的影响。
简单来说,就是把数据分组,放在一个个的桶中,然后对每个桶里面的在进行排序。(桶本身是有序的!)
例如要对大小为[1..1000]范围内的n个整数A[1..n]排序
首先,可以把桶设为大小为10的范围,具体而言,设集合B[1]存储[1..10]的整数,集合B[2]存储 (10..20]的整数,……集合B[i]存储( (i-1)*10, i*10]的整数,i = 1,2,..100。总共有 100个桶。
然后,对A[1..n]从头到尾扫描一遍,把每个A[i]放入对应的桶B[j]中。再对这100个桶中每个桶里的数字排序,这时可用冒泡,选择,乃至快排,一般来说任何排序法都可以。
最后,依次输出每个桶里面的数字,且每个桶中的数字从小到大输出,这样就得到所有数字排好序的一个序列了。
假设有n个数字,有m个桶,如果数字是平均分布的,则每个桶里面平均有n/m个数字。如果对每个桶中的数字采用快速排序,那么整个算法的复杂度是:O(n + m * n/m*log(n/m)) = O(n + nlogn – nlogm)
从上式看出,当m接近n的时候,桶排序复杂度接近O(n)
当然,以上复杂度的计算是基于输入的n个数字是平均分布这个假设的。这个假设是很强的 ,实际应用中效果并没有这么好。如果所有的数字都落在同一个桶中,那就退化成一般的排序了。
排序算法的时间复杂度都是O(n^2),也有部分排序算法时间复杂度是O(nlogn)。而桶式排序却能实现O(n)的时间复杂度。但桶排序的缺点是:
1)首先是空间复杂度比较高,需要的额外开销大。排序有两个数组的空间开销,一个存放待排序数组,一个就是所谓的桶,比如待排序值是从0到m-1,那就需要m个桶,这个桶数组就要至少m个空间。
2)其次待排序的元素都要在一定的范围内等等。
2.代码
#include <iostream>
#include <vector>
#include <ctime>
#include <Windows.h>
using namespace std;
void TenBucketSort(double *a, int n) { //固定为10个箱子
double **p = new double *[10];
for(int i = 0; i < 10; ++i) {
p[i] = new double[100];
}
int count[10] = {0}; //计数初始化
for(int i = 0; i < n; ++i) {
double temp = a[i];
int flag = (int)(temp / 10); //判断每个元素属于哪个桶,原始数据范围是double[0, 100)
p[flag][count[flag]] = temp; //将每个元素放到对应的桶中,从0开始
int j = count[flag]++;//对应桶中的计数加1
//在本桶中与之前的元素作比较,比较替换(插入排序)
for(; j > 0 && temp < p[flag][j - 1]; --j) {
p[flag][j] = p[flag][j - 1];
}
p[flag][j] = temp;
}
//元素全部放完后,进行重新链接的过程
int k = 0;
for(int i = 0; i < 10; ++i) {
for(int j = 0; j < count[i]; ++j) {
a[k++] = p[i][j];
}
}
//申请内存的释放
for(int i = 0; i < 10; ++i) {
delete [] p[i];
p[i] = nullptr;
}
delete [] p;
p = nullptr;
}
void BucketSort(double *a, int n, int Bucket) { //可自行选择箱子个数,为Bucket
double **p = new double *[Bucket];
for(int i = 0; i < Bucket; ++i) {
p[i] = new double[100];
}
int count[Bucket] = {0}; //计数初始化
int Capacity = 100 / Bucket;
for(int i = 0; i < n; ++i) {
double temp = a[i];
int flag = (int)(temp / Capacity); //判断每个元素属于哪个桶,原始数据范围是double[0, 100)
p[flag][count[flag]] = temp; //将每个元素放到对应的桶中,从0开始
int j = count[flag]++;//对应桶中的计数加1
//在本桶中与之前的元素作比较,比较替换(插入排序)
for(; j > 0 && temp < p[flag][j - 1]; --j) {
p[flag][j] = p[flag][j - 1];
}
p[flag][j] = temp;
}
//元素全部放完后,进行重新链接的过程
int k = 0;
for(int i = 0; i < Bucket; ++i) {
for(int j = 0; j < count[i]; ++j) {
a[k++] = p[i][j];
}
}
//申请内存的释放
for(int i = 0; i < Bucket; ++i) {
delete [] p[i];
p[i] = nullptr;
}
delete [] p;
p = nullptr;
}
//随机初始化数组double[0, 100)
template <typename T>
void InitArr(T *nArr, int nLen) {
srand(time(NULL));
for(int i = 0; i < nLen; ++i) {
nArr[i] = (rand() % 1000) * 1.0 / 10;
// nArr[i] = i;
}
}
template <typename T>
void PrintArr(T *nArr, int nLen) {
for(int i = 0; i < nLen; ++i) {
cout << nArr[i] << " ";
}
cout << endl;
}
template <typename T>
void Swape(T *p1, T *p2) {
T nTmp = *p1;
*p1 = *p2;
*p2 = nTmp;
}
template <typename T>
void RandomSort(T *nArr, int nLen) {
srand(time(NULL));
for(int i = 0; i < nLen; ++i) {
int nIndex = rand() % nLen;
Swape(&nArr[i], &nArr[nIndex]);
}
//Sleep(2000);
}
template <typename T>
void CheckArr(T *nArr, int nLen) {
for(int i = 1; i < nLen; ++i) {
if(nArr[i - 1] > nArr[i]) {
cout << "false" << endl;
return;
}
}
cout << "true" << endl;
}
int main() {
int Len = 20;
double Arr[Len] = {0};
PrintArr(Arr, Len);
InitArr(Arr, Len);
RandomSort(Arr, Len);
PrintArr(Arr, Len);
// TenBucketSort(Arr, Len);
BucketSort(Arr, Len, 11);
PrintArr(Arr, Len);
CheckArr(Arr, Len);
}
3.运行结果
4.总结
桶排序是一种非比较排序,最好情况下时间复杂度可达到O(n),需要额外开辟内存空间,属于稳定排序,但需要确定待排序数据的大小范围,且分配桶的个数对排序效率影响较大。