算法之.大数据。小内存排序

假如有100万个数据,每次只能取1万个数据。如何对这100万数据进行排序?

 

 1、首先从100万数据中取出1万数据,平分100组,

2、进行排序这样再取出每组数据中最小的前100个数,存储起来(然后将这100个数删掉),这样每组100个最小数。100组数据就会产生1万组数据

3、在将这一万组数据进行排列取出,最小的前100个数据。此时这100个数据就是100万数据中最小的值,然后记录着100个数据之前在哪个1万组数堆中,再将少的数进行补充,以此类推就对100万进行了排序。

进行时间复杂度分析:首先对 n/100个数据进行树排序,时间复杂度为 log(n/100),所以100组 n/100 ,时间复杂度就是 nlog(n/100)。在对 n/100数据排序 ,时间复杂度仍为 log(n/100),所以循环一次找出n/10000,数据时间复杂度为(n^2)/10000(log(n/100)^2),所以全部排序后时间复杂度为(n^2)(log(n/100)^2)。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 大数据集合的排序常用的算法有以下几种: 1. 快速排序(QuickSort):是一种分治算法,通过递归不断把数据分成两个子集并对它们分别排序,最终得到有序数列。 2. 归并排序(MergeSort):也是一种分治算法,通过递归不断把数据分成两个子集,并对它们分别排序,最终通过归并两个子集得到有序数列。 3. 堆排序(HeapSort):是一种选择排序,通过建立大根堆或小根堆不断地找出最大(最小)的元素放到最后,得到有序数列。 4. 计数排序(CountingSort):是一种非比较排序算法,通过统计每个数值出现的次数来实现排序。 这些算法的具体适用情况及优劣势可以根据具体问题进行选择。 ### 回答2: 大数据集合排序可以使用多种算法,常见的有快速排序、归并排序和堆排序。 1. 快速排序是一种高效的排序算法,它通过选择一个元素作为基准,将集合分成两个子集,并对子集进行递归排序。快速排序具有较好的平均和最坏情况下的性能,时间复杂度为O(nlogn)。 2. 归并排序是将集合划分为两个有序的子集,然后递归地将子集排序,并将两个有序子集合并成一个有序集合。归并排序具有稳定性和较好的最坏情况下的性能,时间复杂度为O(nlogn)。 3. 堆排序是通过构建一个最大堆或最小堆来排序集合。最大堆的根节点是集合中最大的元素,可以将其移动到最后一个位置,然后重新调整堆,得到次大元素。重复这个过程,直到集合有序。堆排序具有较好的最坏情况下的性能,时间复杂度为O(nlogn)。 以上是常见的算法,选择哪种算法取决于数据集的特点、排序要求以及性能要求。此外,还有其他算法如计数排序、基数排序和桶排序等,它们也可以用于大数据集合的排序。 ### 回答3: 大数据集合排序通常使用的算法是外部排序算法,其中最常用的是归并排序算法。 归并排序算法将数据集合划分为若干个较小的子集合,对每个子集合进行内部排序,然后将这些有序的子集合合并起来得到一个完整的有序集合。在大数据集合排序中,由于数据量巨大无法直接载入内存,归并排序算法可以通过分批次处理数据,将数据分为较小的块,分别对每个块进行排序,之后再进行合并操作。归并排序算法的特点是稳定、适用于大规模数据集合的排序,并且具有较好的性能。 具体步骤如下: 1. 将大数据集合划分为适当大小的小块,每个小块可以载入内存进行内部排序。 2. 对每个小块使用内部排序算法(如快速排序、堆排序等)进行排序,得到有序的小块。 3. 依次将排序好的小块进行合并,采用归并排序算法的合并操作,得到一个完整有序的大数据集合。 归并排序算法的优势是可以处理大规模数据集合,并且具有较好的稳定性和扩展性,但由于需要多次磁盘读取和写入操作,速度相对较慢。因此,在实际应用中,还可以根据具体情况选择其他适合大数据排序算法,例如外部快速排序、外部堆排序等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值