SPL 排序优化技巧

【摘要】

        排序计算是一个非常消耗资源的操作,特别是对于大数据排序,如果内存无法装下数据,常规的做法就需要借助外存,不过因此也会增加对数据的读写操作,而读写操作通常又会比排序操作更消耗资源。
        让我们一起去乾学院看个究竟吧:SPL 排序优化技巧

 

        本文介绍的SPL排序优化技巧,除了提供常规的排序算法外,还根据不同场景下的数据特性提供了排序的替代算法,从而减少比较次数和IO量,提升运算性能。

1.内存排序

        当数据可以轻松装入内存时,可以使用SPL的内存排序函数,如A.sort()。SPL默认的排序算法是基于merge sort的多线程排序算法,也就是说,此时的优化方式主要是通过增加线程数量实现的。实际采用的线程数由集算器配置中的[最大并行数]指定。示例代码如下:

 

A

B

1

=5000*1000

/元素数

2

=A1\1000

/随机数最大值

3

=to(A1).(rand(A2))

/生成随机序列

4

=now()

/当前时间

5

=A3.sort()

/升序排序

6

=interval@ms(A4,now())

/排序花费的时间

        实测使用的的测试机CPU是酷睿i7 ,4核心 8线程,根据 [最大并行数]配置的不同,测试结果如下:

最大并行数

平均花费时间(毫秒)

1(即单线程)

1800

4

800

8

660

        可见,多核心CPU或多CPU计算机通过多线程排序可以充分利用每个核心的并行计算能力,显著提升排序性能。

        此例中每个值的重复量平均为1000,对A.sort()函数来说,重复数量的多少对性能影响不大。但在重复数量较多时,我们还可以通过分组法A.group@s()进行排序,进一步提高性能。此方法首先利用哈希法对元素进行分组,然后再对组进行排序,最后合并排序后的组得到排序结果。示例代码如下:

 

A

B

1

=5000*1000

/元素数

2

=A1\1000

/随机数最大值

3

=to(A1).(rand(A2))

/生成随机序列

4

=now()

/当前时间

5

=A3.group@s()

/每个值平均有1000个重复的,使用分组法进行升序排序

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值