Java Stream API(五)-- 并行数据处理

Java 8用Stream API(java.util.stream)解决了这两个问题:集合处理时的套路和晦涩,以及难以利用多核。

之前的博客介绍了如何进行单线程的集合处理,这里介绍如何使用Stream API进行透明的并行处理。Stream API允许声明性地将顺序流变为并行流,而不需要考虑具体实现

1、并行流

并行流就是一个把内容分成多个数据块,并用不同的线程分别处理每个数据块的流。流转化的方法:

  1. parallel()方法把流转化为并行流
  2. sequential()方法把并行流转化为顺序流

例如使用stream计算:接受数字n作为参数,并返回从1到给定参数的所有数字的和。

//顺序流版本
public static long getSequentialSum(Long n){
    return LongStream.rangeClosed(0, n)
            .reduce(0L, Long::sum);
}
//并行流版本
public static long getParallelSum(Long n){
    return LongStream.rangeClosed(0,n)
            .parallel()
            .reduce(0L,Long::sum);
}

需要注意的是:

  1. 顺序流版本的效率普遍来说可能比直接使用foreach编写要慢,因为foreach更加底层
  2. 在这个例子中,并行流版本的运行效率多数情况下会比foreach更好,但是不是所有的并行流版本都会更快
  3. 如果不使用rangeClosed方法产生数字,而用iterate方法,很可能导致并行计算比顺序计算更慢的情况,这是因为iterate生产数字,整张数字列表在reduce操作开始时并没有准备好,没法有效地对数据进行分块

2、正确地使用并行流

和其他的所有并行算法相同,使用并行流同样可能导致错误。而错用并行流产生错误的首要原因,就是使用的算法改变了某些共享状态(和其他并行处理过程一样,共享状态通常是类的实例变量或者静态变量,或者方法块之外的变量,方法块内部的局部变量通常是安全的)。

为了正确地使用并行流进行数据处理,记得要避免共享可变状态

3、高效地使用并行流

要高效地使用并行流需要注意以下几点:

  1. 并行流并不总是比顺序流要快,并且有时候虽然直觉认为更快,实际上却可能更慢
  2. 依赖前后顺序的操作(比如limit和findFirst方法),使用并行流会比顺序流更慢
  3. 如果数据量较小,使用并行流并没有意义,并行处理的好处可能还抵不上并行化造成的额外开销
  4. 还要考虑最后的合并步骤的代价大小
  5. 不同的数据源结构很可能导致不同的并行效率,这是因为不同的数据结构的划分代价不同,下面是常见的数据源和其可分解性:
可分解性
ArrayList极佳
LinkedList
IntStream.range极佳
Stream.iterate
HashSet
TreeSet


 

转载于:https://my.oschina.net/pierrecai/blog/886957

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值