数据结构与算法之线性排序篇

1、线性排序

排序算法的时间复杂度是线性的;之所以这种算法额能做到线性的时间复杂度,主要原因是:这个算法是非基于比较的排序算法,都不涉及元素之间的比较操作;

2、三种线性排序:

桶排序、计数排序、基数排序;

3、桶排序(Bucket sort)

核心思想:将要排序的数据分到几个有序的桶里,每个桶里的数据再单独进行排序。桶内排完序之后,再把每个桶内的数据按照顺序依次取出,组成的序列就是有序的。

计算机生成了可选文字:的 组 位 在 。 的 司 斗 〕 序 22 , 峒 , , 2 27 , 刀 0 , 27 , 午 2 , 学 句 轫 22 , 叾 , 27 , 2 , 20 一 2 , 初 刁 , 4 ,

 

时间复杂度:

如果排序的数据有n个,们把它们均匀划分到m个桶内,每个桶里就有k=n/m个元素。每个桶内部使用快速排序,时间复杂度为O(k*logk)。m个桶排序的时间复杂度就是O(m*klogk),因为k=n/m,所以整个桶排序的时间复杂度就是O(n*log(n/m))。当桶的个数m接近数据个数n时,log(n/m)就是一个非常小的常量,这个时候桶排序的时间复杂度接近O(n)。

桶排序的要求:

(1)、要排序的数据就需要很容易就能划分成m个桶,并且,桶与桶之间有着天然的大小顺序。这样每个桶内的数据都排完序之后,桶与桶之间的数据不需要再进行排序。

(2)、数据在各个桶之间的分布比较均匀的。如果数据经过痛的划分之后,有些桶的数据非常多,有些非常少,很不平均,那桶内数据排序的时间复杂度就不是常量级了。在极端情况下,如果数据都被划分到一个桶里,那就退化为O(nlogn)的排序算法了。

桶排序的应用场景:

桶排序比较适合用在外部排序;所谓外部排序就是数据存储在外部磁盘中,数据量比较大,内存有限,无法将数据全部加载到内存中。

举个例子:

我们有10GB的订单数据,我们希望按订单金额(假设金额都是整数)进行排序,但是内存有限,只有几百MB,没有办法一次性把10GB的数据都加载到内存中,这个时候借助桶排序来处理?

首先可以扫描一遍文件,看订单金额所处的数据范围。假设经过扫描之后我们得到,订单金额最小是1元,最大是10万元。我们将所有订单根据金额划分为100个桶里,第一个桶我们存储金额在1元到1000元之内的订单,第二桶存储金额在1001元到2000元之内的订单,以此类推。每一个桶对应一个文件,并且按照金额范围的大小顺序编号命名(00,01,02,…99)。

理想情况下,如果订单金额在1万到10万之间均匀分布,那订单会被均匀划分到100个文件中,每个小文件中存储大约100MB的订单数据,我们就可以将这100个小文件依次存放到内存中,用快排来排序。等所有文件都排序好之后,我们只需要按照文件编号,从小到大依次读取每个小文件中的订单数据,并将其写入到一个文件中,那么这个文件中的存储的就是按照金额从小到大排序的订单数据了。

实际情况中,订单按照金额在1元到10万元之间并不是均匀分布的,所以10GB订单数据是无法均匀地被划分到100个文件中的。有可能某个金额区间的数据特别多,划分之后对应的文件就很大,没法一次性读入内存。这该怎么办呢?

针对这些划分之后还是比较大的文件,我们可以继续划分,比如,订单金额在1元到1000元之间的比较多,我们就将这个区间继续划分为10个区间,1元到100元,101元到200元,201元到300元…901元1000元。如果划分之后,101元到200元之间的的订单还是太多,无法一次性读入,那就继续在划分,直到所有的文件都能读入内存为止。

4、计数排序(Counting sort)

计数排序其实是一种特殊情况。当要排序的n个数据,所处的范围并不大的时候,比如最大值是K,我们就可以把数据划分成k个桶。每个桶的数据值是相同的,省掉了桶内排序的时间。

例如:高考查分系统,当我们查分的时候,系统会显示我们的成绩以及省份的排名。如果你所在的省份有50万考生,那么如何通过快速排序得出名次呢?

考生的满分是900分,最小是0分,这个数据范围很小,所以我们可以分成901个桶,对应分数从0分到900分。根据考生的成绩,将50万考生划分到901个桶。桶内的数据都是分数相同的考生,所以并不需要再进行排序。我们只需要依次扫描每个桶,将每个桶内的考生依次输入到同一个数组中,就是实现了50万考生的排序。因为涉及扫描遍历操作,所一时间复杂度就是O(n)。

计数偶爱虚的实现方法:

举个例子:假设只有8个考生,分数在0到5分之间。这8个考生的成绩我们放在一个数组A[8]中,他们分别是:2,5,3,0,2,3,0,3。

考生的成绩从0到5分,我们使用大小为6的数组C[6]表示桶,其中下表对应分数。不过,C[6]内存储的并不是考生,而是对应得考生个数。我们只需要遍历一遍考生分数,就可以得到C[6]的值。

从图中可以看出,分数为3 分的考生有3个,小于3分的考生有4个,所以,成绩为3分的考生在排序之后的有序数组R[8]中,会保存下标4,5,6的位置。

计算机生成了可选文字:1 孑 多 的 小 于 3 的 0 二 0 二 0 匡 0 」 0 / 之 3 4 占 冫

那如何计算出每个分数的考生在有序数组中对应的存储位置呢?

思路:

我们对C[6]数组顺序求和,C[6]存储的数据就变成了下面的样子。C[K]储存小于等于分数K的考生个数。

计算机生成了可选文字:乙 2 , 7 , 0 2 3 孕

现在我们从到前依次扫描数组A。比如,当扫描到3时,我们可以从数组C中取出下标为3的值7,也就是说,到目前为止,包括自己在内,分数小于等于3的考生有7个,也就是说3是数组R中的第7个元素(也就是数组中下标为6的位置)。当3放入到数组R中后,小于等于3的元素就只剩下6个了,所以相应的C[3]要减1,变成6。

以此类推,当我们扫描到第2个分数为3的考生的时候,就会把它放入数组R中的第6个元素的位置(也就是下标为5的位置)。当我们扫描完整个数组A后,数组R内的数据就是按照分数从小到大有序排列的。

计算机生成了可选文字:。 丿 A [ 8 〕 2 , 0 2 拿 T 忄 1 T 7 , “ 鬱 : 0 : 鬱 二 0 ' 2 3 孕 了 6 7 0 0 ' 2 3 孕 了 6 7 , “ 0 犭 , 二 0 , 靄 1 0 ' 2 弓 了 6 7 0 ' 〗 弓 孕 了 7 , RC9J 0 ' 2 3 孕 了 7 , RC9J 0 ' 〗 弓 了 6 7 0 ' 2 了 6 7 0 2 ; 孕 了 6 7 ( 〔 刂 冫 Z 0 ' 2 孕 了 搋 , 卫 , 弓 孕 了 , 3 孕 了 〔 团 冫 ; 孕 了 0 2 ; 了 司 0 ' 2 弓 孕 了

对应代码如下:

计算机生成了可选文字:计 數 排 序 , a 是 數 组 , n 是 數 组 大 小 。 假 设 數 组 中 存 储 的 都 是 非 员 數 。 public void countingSort(intC) a 丿 Int n) { , 制 代 码 if (n < = 1 ) return; 查 找 數 组 中 數 掘 的 范 圃 Int max = for ( int i if (max < Eli)) { Intl) = for ( int i 计 算 每 个 元 的 个 數 , 入 中 for ( int i c 忙 [ 1 ] 依 次 累 加 for ( int i 豇 1 一 1 ] 申 清 一 个 计 數 數 组 , 下 标 大 小 7 / 0 { 0 { 临 时 數 组 , 存 储 排 序 之 后 的 结 果 Intl) r = new 1 [ 们 ; 计 算 排 序 的 关 褳 步 驟 , 有 貞 难 理 for ( int i Int Index r(Index) 将 结 果 幬 贝 给 for ( int i 數 组

计数排序的应用场景:

计数排序只能用在数据范围不大的场景中,如果数据范围k比要排序的数据n大很多,就不合适用计数排序了。而且,计数排序只能给非负整数排序,如果要排序的数据是其它类型的,要将其在不改变相对大小的情况下,转化成非负数。

例如:如果排序中的数据有负数,数据范围是[-1000,1000],那我们就需要先对每个数据都加1000,转化非负整数。

5、基数排序

要求:

基数排序要对要排序的数据是由要求的,需要可以分割出独立的" 位"来比较,而且位之间有递进的关系,如果a数据的高位比b数据大,那剩下的低位就不用比较了。除此之外,每一位的数据范围不能太大,要可以用线性排序来排序,否则,基数排序的时间复杂度就无法做到O(n).

如果有10万个手机号码,希望将这10万个手机号码从小到大排序,有什么比较快速的排序?

前面学过的快排,时间复杂度可以做到O(nlogn),而对于桶排序、计数排序,因为手机号码有11位,范围太大,显然不适合用这两种排序算法。针对这个排序问题,我们来学一种复杂度为O(n)的算法----基数排序。

刚刚的手机号码问题有这样的规律:假设比较两个手机号码a,b的大小,如果在前面几位中,a手机号码已经比b号码大了,那后面几位就用不看了。

思路:

先按照最后一位来排序手机号码,然后,再按照倒数第二位重新排序,以此类推,最后第一位重新排序。经过11次排序之后,手机号码就有序了。

下图用字符串的例子代替手机号的排序分解过程。

计算机生成了可选文字:九 k 十 先 k 休 0

注意:这里按照每位来排序的排序算法要是稳定的,否则这个实现思路就是不正确的。因为如果是非稳定排序算法,那最后一次排序就只会考虑到最高位的大小顺序,完全不管其他位的大小关系,那么低位的排序就没有什么意义了。

根据每一位来排序,我们可以用刚讲过的桶排序或者计数排序,他们的时间复杂度可以做到O(n)。如果要排序的数据位有K位,那我们就需要K次桶排序或者计数排序,总的时间复杂度是O(k*n)。当k不大的时候,比如手机号码排序的例子,K最大是11,所以基数排序的时间复杂度就近似O(n)。

实际上,有时候怕排序的数据并不是等长的,比如我们排序牛津字典中的20万个英文单词,最短的只有一个字母,最长的有45个字母,对于这种不等长的数据,基数排序还适用吗?

实际上我们可以把,所有的单词补齐到相同的长度,位数不够的可以在后面补"0",因为根据ASCALL值,所有的字母都大于"0",所以补"0"不会影响原有的大小顺序。这样就可以继续用基数排序了。

Q:学习了以上知识,那如何根据年龄给100万用户排序呢?

实际上,根据年龄给100万用户排序,就类似按照成绩给50万考生排序。我们假年龄的范围最小为1岁,最大不超过120岁。我们可以遍历这100万用户,根据年龄将其划分到120个桶里,然后依次顺序遍历这120个桶中的元素。这样就得到了按照年龄的100万用户数据。


扫码关注微信公众号,欢迎技术交流,其中含有大量免费的人工智能、图像处理、IT资料:

 

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值