数据结构与算法:13 | 线性排序:如何根据年龄给100万用户数据排序?


三种时间复杂度是 O(n) 的排序算法:

桶排序、计数排序、基数排序。

因为这些排序算法的时间复杂度是线性的,所以把这类排序算法叫作线性排序(Linear sort)。之所以能做到线性的时间复杂度,主要原因是,这三个算法是非基于比较的排序算法,都不涉及元素之间的比较操作。

桶排序(Bucket sort)

桶排序,顾名思义,会用到“桶”,核心思想是将要排序的数据分到几个有序的桶里,每个桶里的数据再单独进行排序。桶内排完序之后,再把每个桶里的数据按照顺序依次取出,组成的序列就是有序的了。

在这里插入图片描述
桶排序的时间复杂度为什么是 O(n) 呢?

如果要排序的数据有 n 个,把它们均匀地划分到 m 个桶内,每个桶里就有 k=n/m 个元素。每个桶内部使用快速排序,时间复杂度为 O(k * logk)。m 个桶排序的时间复杂度就是 O(m * k * logk),因为 k=n/m,所以整个桶排序的时间复杂度就是 O(n*log(n/m))。当桶的个数 m 接近数据个数 n 时,log(n/m) 就是一个非常小的常量,这个时候桶排序的时间复杂度接近 O(n)。

桶排序看起来很优秀,那它是不是可以替代我们之前讲的排序算法呢

实际上,桶排序对要排序数据的要求是非常苛刻:

  • 首先,要排序的数据需要很容易就能划分成 m 个桶,并且,桶与桶之间有着天然的大小顺序。这样每个桶内的数据都排序完之后,桶与桶之间的数据不需要再进行排序
  • 其次,数据在各个桶之间的分布是比较均匀的。如果数据经过桶的划分之后,有些桶里的数据非常多,有些非常少,很不平均,那桶内数据排序的时间复杂度就不是常量级了。在极端情况下,如果数据都被划分到一个桶里,那就退化为 O(nlogn) 的排序算法了。

桶排序比较适合用在外部排序中。所谓的外部排序就是数据存储在外部磁盘中,数据量比较大,内存有限,无法将数据全部加载到内存中。

比如说有 10GB 的订单数据,希望按订单金额(假设金额都是正整数)进行排序,但是我们的内存有限,只有几百 MB,没办法一次性把 10GB 的数据都加载到内存中。这个时候该怎么办呢?

可以先扫描一遍文件,看订单金额所处的数据范围。假设经过扫描,订单金额最小是 1 元,最大是 10 万元。将所有订单根据金额划分到 100 个桶里,第一个桶我们存储金额在 1 元到 1000 元之内的订单,第二桶存储金额在 1001 元到 2000 元之内的订单,以此类推。每一个桶对应一个文件,并且按照金额范围的大小顺序编号命名(00,01,02…99)。理想的情况下,如果订单金额在 1 到 10 万之间均匀分布,那订单会被均匀划分到 100 个文件中,每个小文件中存储大约 100MB 的订单数据,就可以将这 100 个小文件依次放到内存中,用快排来排序。等所有文件都排好序之后,只需要按照文件编号,从小到大依次读取每个小文件中的订单数据,并将其写入到一个文件中,那这个文件中存储的就是按照金额从小到大排序的订单数据了。

不过,订单按照金额在 1 元到 10 万元之间并不一定是均匀分布的 ,所以 10GB 订单数据是无法均匀地被划分到 100 个文件中的。有可能某个金额区间的数据特别多,划分之后对应的文件就会很大,没法一次性读入内存。这又该怎么办呢?

针对这些划分之后还是比较大的文件,可以继续划分,比如,订单金额在 1 元到 1000 元之间的比较多,就将这个区间继续划分为 10 个小区间,1 元到 100 元,101 元到 200 元,201 元到 300 元…901 元到 1000 元。如果划分之后,101 元到 200 元之间的订单还是太多,无法一次性读入内存,那就继续再划分,直到所有的文件都能读入内存为止。

计数排序(Counting sort)

计数排序其实是桶排序的一种特殊情况,当要排序的 n 个数据,所处的范围并不大的时候,比如最大值是 k,就可以把数据划分成 k 个桶。每个桶内的数据值都是相同的,省掉了桶内排序的时间

也不一定是k个桶,可以为(max-min+1)个,避免空间浪费,如果需要排序算法是稳定的,可以在向辅助数组添加元素时逆序遍历。

高考查分数系统你还记得吗?我们查分数的时候,系统会显示我们的成绩以及所在省的排名。如果你所在的省有 50 万考生,如何通过成绩快速排序得出名次呢?

考生的满分是 900 分,最小是 0 分,这个数据的范围很小,所以我们可以分成 901 个桶,对应分数从 0 分到 900 分。根据考生的成绩,我们将这 50 万考生划分到这 901 个桶里。桶内的数据都是分数相同的考生,所以并不需要再进行排序。我们只需要依次扫描每个桶,将桶内的考生依次输出到一个数组中,就实现了 50 万考生的排序。因为只涉及扫描遍历操作,所以时间复杂度是 O(n)。

过程略。。
在这里插入图片描述
代码逻辑其实很简单:

#include <iostream>
#include <vector>

using namespace std;

int main(){
	vector<int> a{2,5,3,0,2,3,0,3};
	int max = 0;
	for (int i = 0; i < a.size(); ++i){
		cout << a[i] << " ";
		if (a[i] > max)	max = a[i];
	}
	cout << endl;

	vector<int> c(max+1, 0);
	// 生成数组c(桶)
	for (int i = 0; i < a.size(); ++i)
		++c[a[i]];
	for (const auto &c : c) cout << c << " ";
	cout << endl;

	// 数组c顺序求和
	for (int i = 1; i < c.size(); ++i){
		c[i] += c[i-1];
	}
	for (const auto &c : c) cout << c << " ";
	cout << endl;

	// 生成辅助数组r
	vector<int> r(a.size(), 0);
	//扫描数组a
	for (int i = 0; i < a.size(); ++i){
		// c[a[i]]即为小于等于a[i]的元素的个数
		r[c[a[i]] - 1] = a[i]; // 元素a[i]放入指定位置
		--c[a[i]]; // 减少c中的计数
	}
	for (const auto &c : r) cout << c << " ";
	cout << endl;
	// 结果拷贝给a
	for (int i = 0; i < a.size(); ++i) { 
		a[i] = r[i]{
	}

	return 0;
}

上面的代码使用了辅助数组r,增加了空间复杂度,这儿是可以优化的:

可以直接在数组a里面进行操作:但是需要临时变量存储将要被赶出数组的元素值,我们只是暂时霸占了它的位置,后续还是会给它找一个家的。(测试之后下面的代码对某些情况不能工作,比如(0,5,3,4,2,8,8,5), 放置第一个元素时会进入死循环。以后有时间再修改)

#include <iostream>
#include <vector>

using namespace std;

int main(){
	vector<int> a{2,5,3,0,2,3,0,3};
	int max = 0;
	for (int i = 0; i < a.size(); ++i){
		cout << a[i] << " ";
		if (a[i] > max)	max = a[i];
	}
	cout << endl;

	vector<int> c(max+1, 0);
	// 生成数组c(桶)
	for (int i = 0; i < a.size(); ++i)
		++c[a[i]];
	for (const auto &c : c) cout << c << " ";
	cout << endl;

	// 数组c顺序求和
	for (int i = 1; i < c.size(); ++i){
		c[i] += c[i-1];
	}
	for (const auto &c : c) cout << c << " ";
	cout << endl;

	// 不用辅助数组,直接操作
	int i = 0; // 单纯的计数机器
	int tmp1 = a[0]; //第一个元素
	while (i < a.size()){ //需要操作的次数
		int tmp2 = a[c[tmp1] - 1]; //先把0保存下来
		a[c[tmp1] - 1] = tmp1; //a[3]的位置放入了元素2,原来的元素0接下来处理
		--c[tmp1];
		tmp1 = tmp2;
		++i;
	}
	for (const auto &c : a) cout << c << " ";
	cout << endl;
	return 0;
}

计数排序只能用在数据范围不大的场景中,如果数据范围 k 比要排序的数据 n 大很多,就不适合用计数排序了。而且,计数排序只能给非负整数排序,如果要排序的数据是其他类型的,要将其在不改变相对大小的情况下,转化为非负整数

比如,还是拿考生这个例子。如果考生成绩精确到小数后一位,我们就需要将所有的分数都先乘以 10,转化成整数,然后再放到 9010 个桶内。再比如,如果要排序的数据中有负数,数据的范围是[-1000, 1000],那我们就需要先对每个数据都加 1000,转化成非负整数。

关于该算法的优化:
一文弄懂计数排序算法!

基数排序(Radix sort)

假设我们有 10 万个手机号码,希望将这 10 万个手机号码从小到大排序,你有什么比较快速的排序方法呢?

之前讲的快排,时间复杂度可以做到 O(nlogn),还有更高效的排序算法吗?桶排序、计数排序能派上用场吗?手机号码有 11 位,范围太大,显然不适合用这两种排序算法。针对这个排序问题,有没有时间复杂度是 O(n) 的算法呢?现在我就来介绍一种新的排序算法,基数排序。

刚刚这个问题里有这样的规律:假设要比较两个手机号码 a,b 的大小,如果在前面几位中,a 手机号码已经比 b 手机号码大了,那后面的几位就不用看了。

还记得第 11 节中,在阐述排序算法的稳定性的时候举的订单的例子吗?这里也可以借助相同的处理思路,先按照最后一位来排序手机号码,然后,再按照倒数第二位重新排序,以此类推,最后按照第一位重新排序。

经过 11 次排序之后,手机号码就都有序了。手机号码稍微有点长,画图比较不容易看清楚,我用字符串排序的例子,画了一张基数排序的过程分解图,你可以看下(为了保证稳定性,这儿需要注意入桶顺序)。

在这里插入图片描述
注意,这里按照每位来排序的排序算法要是稳定的,否则这个实现思路就是不正确的。因为如果是非稳定排序算法,那最后一次排序只会考虑最高位的大小顺序,完全不管其他位的大小关系,那么低位的排序就完全没有意义了。

根据每一位来排序,我们可以用刚讲过的桶排序或者计数排序,它们的时间复杂度可以做到 O(n)。如果要排序的数据有 k 位,那我们就需要 k 次桶排序或者计数排序,总的时间复杂度是 O(k*n)。当 k 不大的时候,比如手机号码排序的例子,k 最大就是 11,所以基数排序的时间复杂度就近似于 O(n)。

实际上,有时候要排序的数据并不都是等长的,比如我们排序牛津字典中的 20 万个英文单词,最短的只有 1 个字母,最长的我特意去查了下,有 45 个字母,中文翻译是尘肺病。对于这种不等长的数据,基数排序还适用吗?

实际上,可以把所有的单词补齐到相同长度位数不够的可以在后面补“0”,因为根据ASCII 值,所有字母都大于“0”,所以补“0”不会影响到原有的大小顺序。这样就可以继续用基数排序了。

总结一下,基数排序对要排序的数据是有要求的,需要可以分割出独立的“位”来比较,而且位之间有递进的关系,如果 a 数据的高位比 b 数据大,那剩下的低位就不用比较了。除此之外,每一位的数据范围不能太大,要可以用线性排序算法来排序,否则,基数排序的时间复杂度就无法做到 O(n) 了。

解答开篇

实际上,根据年龄给 100 万用户排序,就类似按照成绩给 50 万考生排序。我们假设年龄的范围最小 1 岁,最大不超过 120 岁。我们可以遍历这 100 万用户,根据年龄将其划分到这 120 个桶里,然后依次顺序遍历这 120 个桶中的元素。这样就得到了按照年龄排序的 100 万用户数据。

桶排序和计数排序的排序思想是非常相似的,都是针对范围不大的数据,将数据划分成不同的桶来实现排序。

基数排序要求数据可以划分成高低位,位之间有递进关系。比较两个数,我们只需要比较高位,高位相同的再比较低位。而且每一位的数据范围不能太大,因为基数排序算法需要借助桶排序或者计数排序来完成每一个位的排序工作。

课后思考

我们今天讲的都是针对特殊数据的排序算法。实际上,还有很多看似是排序但又不需要使用排序算法就能处理的排序问题。

假设我们现在需要对 D,a,F,B,c,A,z 这个字符串进行排序,要求将其中所有小写字母都排在大写字母的前面,但小写字母内部和大写字母内部不要求有序。比如经过排序之后为 a,c,z,D,F,B,A,这个如何来实现呢?如果字符串中存储的不仅有大小写字母,还有数字。要将小写字母的放到前面,大写字母放在最后,数字放在中间,不用排序算法,又该怎么解决呢?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值