桶排序 (Bucket sort)的工作的原理:
假设输入数据服从均匀分布, 将数据分到有限数量的桶里,每 个桶再分别排序(有可能再使用 别的排序算法或是以递归方式继 续使用桶排序进行排序
编程思路
1、初始化桶的大小为K
2、获取 n 个数据中的最大值 max,最小值 min
3、将数据放入到 n/K +1 个桶中,a[i] 放入哪个桶的规则为 (a[i]-min)/k
4、对 n/K 个桶分别进行快速排序并输出。
import random
def quick_sort(data_list):
length = len(data_list)
quick_sort_c(data_list, 0, length - 1)
def quick_sort_c(data_list, begin, end):
if begin >= end:
return
else:
index = partition(data_list, begin, end)
quick_sort_c(data_list, begin, index - 1)
quick_sort_c(data_list, index + 1, end)
def partition(data_list, begin, end):
partition_key = data_list[end]
index = begin
for i in range(begin, end):
if data_list[i] < partition_key:
data_list[i], data_list[index] = data_list[index], data_list[i]
index += 1
data_list[index], data_list[end] = data_list[end], data_list[index]
return index
def find_top_k(data_list, k):
length = len(data_list)
begin = 0
end = length - 1
index = partition(data_list, begin, end)
while index != length - k:
if index > length - k:
end = index - 1
index = partition(data_list, begin, end)
else:
begin = index + 1
index = partition(data_list, index + 1, end)
return data_list[index]
def bucket_sort(data_list, bucket_size=5):
length = len(data_list)
min_ = max_ = data_list[0]
# 寻找最小值和最大值
for i in range(0, length):
if data_list[i] < min_:
min_ = data_list[i]
if data_list[i] > max_:
max_ = data_list[i]
# 定义多个桶
num_of_buckets = (max_ - min_) // bucket_size + 1
buckets = [[] for _ in range(num_of_buckets)]
# 将数据放入桶中
for i in range(0, length):
buckets[(data_list[i] - min_)//bucket_size].append(data_list[i])
# 依次对桶内数据进行快速排序
data_list.clear()
for i in range(num_of_buckets):
quick_sort(buckets[i])
for data in buckets[i]:
data_list.append(data)
data_list = [random.randint(0, 100) for i in range(10)]
print(data_list)
bucket_sort(data_list)
print(data_list)
桶排序适用场景
桶排序适合外部排序,外部排序就是数据在内存之外,比如磁盘上,数据量比较大,无法 一次性读入内存。
举个例子,假如老板给你一份 10 GB 大小的文件,是订单的交易明细数 据,要求你按订单金额从大到小排序,而你的内存内有 4GB,实际可用内存只有 2 GB, 那么此时就是桶排序发挥作用的时候了。
1. 将文件逐行读入内存(几乎每个编程语言都可 以),扫描并记录最小值,最大值,假如最小值为 1 元,最大值为 10 万元,且都为整数, 不是整数也没关系,可以先乘以 100 换成整数,排序后再除以 100 还原。