排序算法性能分析
实验目的
- 掌握选择排序、冒泡排序、合并排序、快速排序、插入排序算法原理
- 掌握不同排序算法时间效率的经验分析方法,验证理论分析与经验分析的一致性。
- 现在有10亿的数据(每个数据四个字节),请快速挑选出最大的十个数,并在小规模数据上验证算法的正确性。
实验思路
排序不多说,讲一下第3点。3是经典的topK问题,这么大的数据量肯定不能排序了。容易想到的思路是开两个数组,一个放10亿个数,一个放10个数。把大数组扫一遍,对每个数插到小数组里合适的位置(像插入排序一样),如果它比最后一个数还小就不插。
有没有更快的解决办法呢?有一个数据结构可以降低小数组的比较次数——堆。对小数组建一个小顶堆,如果要插进来的数比顶大,就将顶替换成它,然后做一次小顶化。这样替换的效率就是log了。
当然还有其他算法,这里贴一个链接:海量数据处理 - 10亿个数中找出最大的10000个数(top K问题)