Java 8 引入了 Stream
API,它提供了一种声明性的数据处理方式,并且可以轻松地进行并行操作。一个重要的特性是 Stream
的延迟执行(Lazy Evaluation)。这意味着 Stream
的操作在终端操作(Terminal Operation)之前不会实际执行。这种机制可以提高性能,因为它允许在处理过程中进行优化。
1. 延迟执行机制
示例代码
我们通过一个简单的例子来展示 Stream
的延迟执行特性:
java
import java.util.Arrays;
import java.util.List;
import java.util.function.Predicate;
import java.util.stream.Stream;
public class StreamLazyEvaluation {
public static void main(String[] args) {
List<String> strings = Arrays.asList("abc", "def", "gkh", "abc");
Stream<String> stream = strings.stream().filter(new Predicate<String>() {
@Override
public boolean test(String s) {
System.out.println("Predicate.test 执行 - " + s);
return true;
}
});
System.out.println("count 执行");
long count = stream.count();
System.out.println("元素个数: " + count);
}
}
执行结果
txt
count 执行
Predicate.test 执行 - abc
Predicate.test 执行 - def
Predicate.test 执行 - gkh
Predicate.test 执行 - abc
元素个数: 4
从结果可以看出,filter
方法中的 Predicate.test
并没有在调用时立即执行,而是在 count
方法(终端操作)调用时才进行。这样,每个元素只遍历一次,而不是多次遍历,从而提高了性能。
延迟执行的原因和好处
1. 性能优化
延迟执行允许对数据流的多个操作进行优化。例如,如果你有一个链式调用包含多个中间操作(如 filter
、map
),这些操作可以在终端操作(如 collect
、count
)触发时合并执行,从而减少不必要的计算。
示例代码
java
import java.util.Arrays;
import java.util.List;
import java.util.stream.Collectors;
public class LazyEvaluation {
public static void main(String[] args) {
List<String> strings = Arrays.asList("abc", "def", "ghi", "abc");
List<String> result = strings.stream()
.filter(s -> {
System.out.println("Filter: " + s);
return s.startsWith("a");
})
.map(s -> {
System.out.println("Map: " + s);
return s.toUpperCase();
})
.collect(Collectors.toList());
System.out.println(result);
}
}
执行结果
txt
Filter: abc
Map: abc
Filter: def
Filter: ghi
Filter: abc
Map: abc
[ABC, ABC]
在这个例子中,filter
和 map
操作并不是在调用时立即执行,而是等到 collect
操作(终端操作)触发时才进行。这样,每个元素只遍历一次,而不是多次遍历,从而提高了性能。
2. 资源节省
延迟执行可以避免不必要的计算和资源消耗。只有在需要结果时才会进行实际的计算,这样可以节省内存和计算资源。
示例代码
java
import java.util.Arrays;
import java.util.List;
public class ResourceSaving {
public static void main(String[] args) {
List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);
long count = numbers.stream()
.filter(n -> {
System.out.println("Filter: " + n);
return n % 2 == 0;
})
.count();
System.out.println("Count of even numbers: " + count);
}
}
执行结果
txt
Filter: 1
Filter: 2
Filter: 3
Filter: 4
Filter: 5
Filter: 6
Filter: 7
Filter: 8
Filter: 9
Filter: 10
Count of even numbers: 5
在这个例子中,如果没有延迟执行,filter
操作就会在每次调用时进行计算,并占用资源。延迟执行确保了只有在 count
操作触发时才会进行实际的过滤操作,从而节省资源。
3. 代码简洁性
延迟执行使得 Stream
API 的使用更加自然和简洁。你可以通过链式调用来组合多个操作,而不需要担心每个中间操作的立即执行。
示例代码
java
import java.util.Arrays;
import java.util.List;
import java.util.stream.Collectors;
public class CodeSimplicity {
public static void main(String[] args) {
List<String> strings = Arrays.asList("abc", "def", "ghi", "jkl");
List<String> result = strings.stream()
.filter(s -> s.startsWith("a"))
.map(String::toUpperCase)
.collect(Collectors.toList());
System.out.println(result);
}
}
在这个例子中,链式调用使得代码简洁明了,而延迟执行确保了性能和资源的有效利用。
源码解析
Stream
的延迟执行机制在其内部实现中体现得淋漓尽致。以下是 Stream
的部分源码,用于解释其延迟执行的实现。
Stream
接口
java
public interface Stream<T> extends BaseStream<T, Stream<T>> {
// Various methods...
}
AbstractPipeline
类
Stream
的实现类之一是 AbstractPipeline
,它负责管理流的操作和延迟执行。
java
abstract class AbstractPipeline<E_IN, E_OUT, S extends BaseStream<E_OUT, S>>
extends PipelineHelper<E_OUT>
implements BaseStream<E_OUT, S> {
@Override
public final <R> R evaluate(TerminalOp<E_OUT, R> terminalOp) {
// Evaluate the pipeline and execute terminal operation
}
@Override
public final void forEach(Consumer<? super E_OUT> action) {
// Perform the forEach operation
}
// Other methods...
}
在 AbstractPipeline
中,中间操作(如 filter
、map
)仅仅是记录在一个链表中,只有当终端操作(如 forEach
、collect
)触发时,才会遍历这个链表并执行所有操作。
2. 并行流(Parallel Stream)
Stream
API 还提供了并行流,可以利用多核处理器的优势,提高数据处理的效率。并行流的底层实现基于 ForkJoin
框架。
示例代码
我们通过一个示例展示并行流的多线程执行:
java
import java.util.Arrays;
import java.util.List;
public class ParallelStreamExample {
public static void main(String[] args) {
List<Integer> numbers = Arrays.asList(1, 2, 5, 4);
numbers.parallelStream().forEach(num ->
System.out.println(Thread.currentThread().getName() + " >> " + num)
);
}
}
执行结果
txt
main >> 5
ForkJoinPool.commonPool-worker-2 >> 4
ForkJoinPool.commonPool-worker-11 >> 1
ForkJoinPool.commonPool-worker-9 >> 2
从结果可以看出,forEach
操作是由多个线程并行执行的,包括主线程 main
和其他 ForkJoinPool
工作线程。
并行流的实现原理
并行流是通过 ForkJoinPool
实现的。ForkJoinPool
是一种特殊的线程池,适用于将大任务拆分为小任务,并行处理后再合并结果。其核心类是 ForkJoinTask
,它支持任务的拆分和合并。
并行流的使用场景
- 大规模数据处理:适用于需要处理大量数据的场景,可以显著提高处理速度。
- CPU 密集型操作:当操作是 CPU 密集型时,并行流可以最大化利用多核处理器的能力。
注意事项
- 线程安全:并行流中的操作必须是线程安全的,否则可能会出现数据不一致的问题。
- 开销:并行流会引入线程管理的开销,对于小规模数据集,可能会导致性能下降。
总结
通过上述示例和分析,我们了解了 Stream
API 的延迟执行机制和并行流的基础知识。延迟执行使得 Stream
操作更加高效,而并行流则可以利用多核处理器提高数据处理效率。了解这些特性和实现原理,可以帮助我们在实际开发中更好地使用 Stream
API 提高代码的效率和可维护性。