【摘要】
排序计算是一个非常消耗资源的操作,特别是对于大数据排序,如果内存无法装下数据,常规的做法就需要借助外存,不过因此也会增加对数据的读写操作,而读写操作通常又会比排序操作更消耗资源。
让我们一起去乾学院看个究竟吧:SPL 排序优化技巧
本文介绍的SPL排序优化技巧,除了提供常规的排序算法外,还根据不同场景下的数据特性提供了排序的替代算法,从而减少比较次数和IO量,提升运算性能。
1.内存排序
当数据可以轻松装入内存时,可以使用SPL的内存排序函数,如A.sort()。SPL默认的排序算法是基于merge sort的多线程排序算法,也就是说,此时的优化方式主要是通过增加线程数量实现的。实际采用的线程数由集算器配置中的[最大并行数]指定。示例代码如下:
A |
B |
|
1 |
=5000*1000 |
/元素数 |
2 |
=A1\1000 |
/随机数最大值 |
3 |
=to(A1).(rand(A2)) |
/生成随机序列 |
4 |
=now() |
/当前时间 |
5 |
=A3.sort() |
/升序排序 |
6 |
=interval@ms(A4,now()) |
/排序花费的时间 |
实测使用的的测试机CPU是酷睿i7 ,4核心 8线程,根据 [最大并行数]配置的不同,测试结果如下:
最大并行数 |
平均花费时间(毫秒) |
1(即单线程) |
1800 |
4 |
800 |
8 |
660 |
可见,多核心CPU或多CPU计算机通过多线程排序可以充分利用每个核心的并行计算能力,显著提升排序性能。
此例中每个值的重复量平均为1000,对A.sort()函数来说,重复数量的多少对性能影响不大。但在重复数量较多时,我们还可以通过分组法A.group@s()进行排序,进一步提高性能。此方法首先利用哈希法对元素进行分组,然后再对组进行排序,最后合并排序后的组得到排序结果。示例代码如下:
A |
B |
|
1 |
=5000*1000 |
/元素数 |
2 |
=A1\1000 |
/随机数最大值 |
3 |
=to(A1).(rand(A2)) |
/生成随机序列 |
4 |
=now() |
/当前时间 |
5 |
=A3.group@s() |
/每个值平均有1000个重复的,使用分组法进行升序排序 |