Fork/Join是在Java7中提供的一个并发执行任务的框架。他的基本运行流程就是:把一个大任务分解成子任务,如果子任务还不是足够小,就继续分解成子子任务,一直分解到足够小。具体要分解到有多小,你可以自己定义这个阈值。
然后把这些子任务分摊给多个线程去执行,每个线程对应一个双端队列负责保存这些原子任务。
这里叫“原子”任务,之所以叫原子任务,就是为了说明他们已经足够小。是经过多次的递归后的结果。
没错,这就是fork的过程。join的过程就是上面的图颠倒过来。
工作窃取算法
工作窃取算法指的是某个线程从其他队列里窃取任务来执行。使用的场景是一个大任务拆分成多个小任务,为了减少线程间的竞争,把这些子任务分别放到不同的队列中,并且每个队列都有单独的线程来执行队列里的任务,线程和队列一一对应。但是会出现这样一种情况:A线程处理完了自己队列的任务,B线程的队列里还有很多任务要处理。A是一个很热情的线程,想过去帮忙,但是如果两个线程访问同一个队列,会产生竞争,所以A想了一个办法,从双端队列的尾部拿任务执行。而B线程永远是从双端队列的头部拿任务执行(任务是一个个独立的小任务),这样感觉A线程像是小偷在窃取B线程的东西一样。
下图是窃取算法的流程:
框架介绍
Fork/Join框架在java.util.concurrent包中定义。包含几个支持并发编程的类和接口。它的主要作用就是它简化了多线程创建的过程及其使用,并自动化了多个处理器之间的进程分配机制。
这个框架中有两个概念,四个核心类:
两个概念: 任务(ForkJoinTask)和线程池(ForkJoinPool)。
四个核心类:
ForkJoinTask: 这是一个抽象类。是Fork/Join任务的一个抽象,你需要继承此类,然后定义自己的计算逻辑。一个任务的创建就是通过此类中的fork()方法来实现的。这里说的任务几乎类似Thread类创建的那些普通线程,但更轻量级。因为它可以使用ForkJoinPool中少量有限的线程来管理大量的任务,所以它要比Thread类创建的线程更轻量。fork()方法异步执行任务,join方法可以一直等待到任务执行完毕。这个我们会在接下来的示例代码中也会有具体讲解。还有另外一个重要的方法就是invoke()方法,它是把fork和join两个操作合二为一成一个单独的调用。总之,主要有三个核心的方法,fork、join、invoke,要记住这三个方法分别是干什么用的。
ForkJoinPool: 这个类线程池负责执行ForkJoinTask任务。
RecursiveAction: 是并发包内现成的ForkJoinTask实现之一。继承自ForkJoinTask,负责处理那些不需要返回结果的任务。
RecursiveTask: 也是并发包内现成的ForkJoinTask实现之一。继承自ForkJoinTask,负责处理那些需要返回结果的任务。那么怎么记住这两个类的不同点呢?只需要记他们的最后一个单词,一个是Action,一个Task。Action本身就有点感觉是只负责执行,有去无回。
示例
接下来我们通过一个求和的例子来说明ForkJoin的流程。现在我们要对1到8的整数进行求和。代码如下:
public class CountTask extends RecursiveTask<Integer> {
private static final long serialVersionUID = 1L;
//阈值
private static final int THRESHOLD = 2;
private int start;
private int end;
public CountTask(int start, int end) {
this.start = start;
this.end = end;
}
@Override
protected Integer compute() {
int sum = 0;
//判断任务是否足够小
boolean canCompute = (end - start) <= THRESHOLD;
if(canCompute) {
//如果小于阈值,就进行运算
for(int i=start; i<=end; i++) {
sum += i;
}
} else {
//如果大于阈值,就再进行任务拆分
int middle = (start + end)/2;
CountTask leftTask = new CountTask(start,middle);
CountTask rightTask = new