SPL 排序优化技巧

润乾软件

于 2019-03-05 16:08:11 发布

阅读量558

点赞数

分类专栏：集算器文章标签：排序性能优化多线程性能对比外存

本文链接：https://blog.csdn.net/raqsoft/article/details/88186254

版权

【摘要】

排序计算是一个非常消耗资源的操作，特别是对于大数据排序，如果内存无法装下数据，常规的做法就需要借助外存，不过因此也会增加对数据的读写操作，而读写操作通常又会比排序操作更消耗资源。
让我们一起去乾学院看个究竟吧：SPL 排序优化技巧

本文介绍的SPL排序优化技巧，除了提供常规的排序算法外，还根据不同场景下的数据特性提供了排序的替代算法，从而减少比较次数和IO量，提升运算性能。

1.内存排序

当数据可以轻松装入内存时，可以使用SPL的内存排序函数，如A.sort()。SPL默认的排序算法是基于merge sort的多线程排序算法，也就是说，此时的优化方式主要是通过增加线程数量实现的。实际采用的线程数由集算器配置中的[最大并行数]指定。示例代码如下：

实测使用的的测试机CPU是酷睿i7 ，4核心 8线程，根据 [最大并行数]配置的不同，测试结果如下：

可见，多核心CPU或多CPU计算机通过多线程排序可以充分利用每个核心的并行计算能力，显著提升排序性能。

此例中每个值的重复量平均为1000，对A.sort()函数来说，重复数量的多少对性能影响不大。但在重复数量较多时，我们还可以通过分组法A.group@s()进行排序，进一步提高性能。此方法首先利用哈希法对元素进行分组，然后再对组进行排序，最后合并排序后的组得到排序结果。示例代码如下：

关注