玩转Java8 Stream流

原创已于 2022-04-25 15:39:03 修改 · 9.4k 阅读

51 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #java

于 2021-08-29 13:56:30 首次发布

JAVA知识点专栏收录该内容

11 篇文章

订阅专栏

本文深入解析Java 8 Stream流的原理、创建方法、中间操作（筛选、映射、排序）、消费操作、终止操作（匹配、聚合、规约与收集），以及stream与parallelStream的区别，并探讨了map与flatMap的用法和并发处理技巧。

Java8中Stream流总结

因为在工作后，发现项目代码里经常会出现Stream流以及和lambda表达式联合使用。但之前对于这块的学习有点一知半解，所以花了几天空闲时间将这些知识总结一下。

一、概述

**（参考百度）**Stream 是 Java8 中处理集合的关键抽象概念，它可以指定你希望对集合进行的操作，可以执行非常复杂的查找、过滤和映射数据等操作。使用Stream API 对集合数据进行操作，就类似于使用 SQL 执行的数据库查询。也可以使用 Stream API 来并行执行操作。简而言之，Stream API 提供了一种高效且易于使用的处理数据的方式。

特点：

不是数据结构，不会保存数据。
不会修改原来的数据源，它会将操作后的数据保存到另外一个对象中。（保留意见：毕竟peek方法可以修改流中元素）
惰性求值，流在中间处理过程中，只是对操作进行了记录，并不会立即执行，需要等到执行终止操作的时候才会进行实际的计算。

	Stream操作分类
中间操作	无状态	filter map flatMap peek
	有状态	distinct sorted limit skip
结束操作	非短路操作	forEach reduce collect max min count
	短路操作	anyMatch allMatch noneMatch findFirst findAny

无状态：指元素的处理不受之前元素的影响；

有状态：指该操作只有拿到所有元素之后才能继续下去。

非短路操作：指必须处理所有元素才能得到最终结果；

短路操作：指遇到某些符合条件的元素就可以得到最终结果，如 A || B，只要A为true，则无需判断B的结果。

二、Stream流的具体用法

1. 流的常用创建方法

一般来说有5中常见的流创建方法

1.1 使用Collection下的 stream() 和 parallelStream() 方法（最为常用）

List<String> list = new ArrayList<>();
Stream<String> stream = list.stream();  //顺序流
Stream<String> stringStream = list.parallelStream(); //并行流

问题1：stream和parallelStream的区别？它们分别在什么时候使用？为什么我在项目中大量看到的都是使用stream

目前我的理解是parallelStream用在多线程并发时，而stream是单线程

1.2 使用Arrays 中的 stream() 方法，将数组转成流

Integer[] nums = new Integer[]{10,2,3,5};
Stream<Integer> Integerstream = Arrays.stream(nums);

可以将数组转换为流

1.3 使用Stream中的静态方法：of()、iterate()、generate()

Stream<Integer> TestStream = Stream.of(1,2,3,4);
//iterate()、generate()方法可以创建无限流，可以通过limit()方法来限制数量。
Stream<Integer> TestStream2 = Stream.iterate(0,x->x+2);
Stream<Integer> TestStream3 = Stream.generate(()-> new Random().nextInt(10));
Stream<Integer> TestStream4 = Stream.iterate(0,x->x+2).limit(10);

1.4 使用 BufferedReader.lines() 方法，将每行内容转成流

BufferedReader reader = new BufferedReader(new FileReader("F:\\test_stream.txt"));
Stream<String> lineStream = reader.lines();
//上面可以写成一行
Stream<String> lineStream2 = new BufferedReader(new FileReader("F:\\test_stream.txt")).lines();

1.5 使用 Pattern.splitAsStream() 方法，将字符串分隔成流

Pattern pattern = Pattern.compile(",");
Stream<String> stringStream2 = pattern.splitAsStream("a,b,c,d");

问题2：Pattern类是什么？Pattern.compile的方法？splitAsStream？

这个后续我单独写一个博客。

2. 流的中间操作

2.1 筛选与切片

filter：过滤流中的某些元素
limit(n)：获取n个元素，限制获取元素的个数
skip(n)：跳过n元素，配合limit(n)可实现分页
distinct：通过流中元素的 hashCode() 和 equals() 去除重复元素

Stream<Integer> stream = Stream.of(6,6,6,12,22,12,213,111,7,9,10);
Stream<Integer> streamFilter = stream.filter(item -> item > 10) // 12 22 12 213 111
        .distinct() //12 22 213 111
        .skip(2) //213 111
        .limit(1);//213
streamFilter.forEach(System.out::println);

2.2 映射

map：接收一个函数作为参数，(常为lambda表达式)该函数会被应用到每个元素上，并将其映射成一个新的元素。

List<String> list = Arrays.asList("String","f,g,h");
Stream<String> stringStream = list.stream().map(s -> s.replaceAll(",", ""));//String fgh
//flatMap：接收一个函数作为参数，将流中的每个值都换成另一个流，然后把所有流连接成一个流。
Stream<String> stringStream2 = list.stream().flatMap(s -> {
    String[] split = s.split(",");
    Stream<String> testStream = Arrays.stream(split);
    return testStream;
});//String f g h
stringStream2.forEach(System.out::println);

问题3：flatmap和map的区别

使用flatMap方法的效果是，各个数组并不是分别映射一个流，而是映射成流的内容。但是这个解释有点抽象

举例：

比如对给定单词列表 [“Hello”,“World”], 现在想返回列表[“H”,“e”,“l”,“o”,“W”,“r”,“d”]

		String[] words = new String[]{"Hello","World"};
        List<String[]> a = Arrays.stream(words)
                .map(word -> word.split(""))
                .distinct()
                .collect(toList());
        a.forEach(System.out::print);
//代码输出为：[Ljava.lang.String;@12edcd21[Ljava.lang.String;@34c45dca （返回一个包含两个String[]的list）

**为什么没有达到预想的结果？**因为传递给map方法的lambda为每个单词生成了一个String[]。因此，map返回的流实际上是Stream<String[]> 类型的。
在这里插入图片描述

从上图解析就可以理解**“map方法的lambda为每个单词生成了一个String[]”**这句话的意思，所以最后返回的list是String数组。

 		String[] words = new String[]{"Hello","World"};
        List<String> a = Arrays.stream(words)
            	.map(word -> word.split(""))
                .flatMap(Arrays::stream)
                .distinct()
                .collect(toList());
        a.forEach(System.out::print);//HeloWrd

最终得到的结果就是HeloWrd

在这里插入图片描述

所以说flatMap方法的效果是，各个数组并不是分别映射一个流，而是映射成流的内容

2.3 排序

sorted()：自然排序，流中元素需实现Comparable接口

List<String> list = Arrays.asList("tt","er","Ad");
list.stream().sorted().forEach(System.out::println);//Ad er tt
//这里String类已经实现了Comparable接口

      	Person p1 = new Person("zhangsan",26);
        Person p2 = new Person("zhangsan",22);
        Person p3 = new Person("wangwu",23);
        List<Person> list = Arrays.asList(p1,p2,p3);
//        //自定义Comparator排序器 自定义排序：先按姓名升序，姓名相同则按年龄升序
        list.stream().sorted((o1,o2)->{
            if(o1.getName().equals(o2.getName())){
                return o1.getAge()-o2.getAge();
            }else {
                return o1.getName().compareTo(o2.getName());
            }
        }).forEach(System.out::println);

问题4：java中的compareTo方法和Comparator接口

这个我后续再写一个相关博客。

2.4 消费

peek：如同于map，能得到流中的每一个元素。但map接收的是一个Function表达式，有返回值；而peek接收的是Consumer表达式，没有返回值。

什么叫有无返回值？

Person p1 = new Person("zhangsan",26);
Person p2 = new Person("lisi",22);
Person p3 = new Person("wangwu",23);
List<Person> list = Arrays.asList(p1,p2,p3);
list.stream().map(item->item.setAge(100));
list.forEach(System.out::println);
//上述写法是错误写法

运行后：
在这里插入图片描述

为什么？查看一下map方法源码，就发现该方法需要一个返回值，所以要实现这个改变age的功能，需要将代码改为：

在这里插入图片描述

        Person p1 = new Person("zhangsan",26);
        Person p2 = new Person("lisi",22);
        Person p3 = new Person("wangwu",23);
        List<Person> list = Arrays.asList(p1,p2,p3);
        list.stream().map(item->{
            item.setAge(100);
            return item;
        }).forEach(System.out::println);

但如果是使用peek方法呢？就可以这么写了：

Person p1 = new Person("zhangsan",26);
Person p2 = new Person("lisi",22);
Person p3 = new Person("wangwu",23);
List<Person> list = Arrays.asList(p1,p2,p3);
list.stream().peek(item->item.setAge(100)).forEach(System.out::println);

因为peek方法是无返回值的。

3.流的终止操作

3.1 匹配、聚合操作

allMatch：接收一个 Predicate 函数，当流中每个元素都符合该断言时才返回true，否则返回false
noneMatch：接收一个 Predicate 函数，当流中每个元素都不符合该断言时才返回true，否则返回false
anyMatch：接收一个 Predicate 函数，只要流中有一个元素满足该断言则返回true，否则返回false
findFirst：返回流中第一个元素
findAny：返回流中的任意元素
count：返回流中元素的总个数
max：返回流中元素最大值
min：返回流中元素最小值

具体用法：

List<Integer> list = Arrays.asList(1, 2, 3, 4, 5);  

boolean allMatch = list.stream().allMatch(e -> e > 10); //false
boolean noneMatch = list.stream().noneMatch(e -> e > 10); //true
boolean anyMatch = list.stream().anyMatch(e -> e > 4); //true 

Integer findFirst = list.stream().findFirst().get(); //1
Integer findAny = list.stream().findAny().get(); //1 

long count = list.stream().count(); //5
Integer max = list.stream().max(Integer::compareTo).get(); //5
Integer min = list.stream().min(Integer::compareTo).get(); //1

3.2 规约操作

Stream中的Reduce方法：根据一定的规则将Stream中的元素进行计算后返回一个唯一的值，它有三个变种，输入参数分别是一个参数、二个参数以及三个参数。

3.2.1 一个参数

Optional<T> reduce(BinaryOperator<T> accumulator);

Stream<Integer> s = Stream.of(1, 2, 3, 4, 5, 6);
Integer sum = s.reduce((a, b) -> a + b).get();
System.out.println(sum);//21

上述代码通过reduce方法完成数的求和，其实就是前两个数作为输入，算出它们的和并将其作为输出。

3.2.2 两个参数

T reduce(T identity, BinaryOperator<T> accumulator);

可以看出多出了一个参数T identity，这个相当于一个初始参数。

Stream<String> s = Stream.of("test", "t1", "t2", "teeeee", "aaaa", "taaa");
System.out.println(s.reduce("[value]", (s1, s2) -> s1.concat(s2)));//[value]testt1t2teeeeeaaaataaa

3.2.3 三个参数

<U> U reduce(U identity,
             BiFunction<U, ? super T, U> accumulator,
             BinaryOperator<U> combiner);

分析下它的三个参数：

identity: 一个初始化的值；这个初始化的值其类型是泛型U，与Reduce方法返回的类型一致；注意此时Stream中元素的类型是T，与U可以不一样也可以一样，这样的话操作空间就大了；不管Stream中存储的元素是什么类型，U都可以是任何类型，如U可以是一些基本数据类型的包装类型Integer、Long等；或者是String，又或者是一些集合类型ArrayList等；后面会说到这些用法。（这个和之前的两参数和单参数就不一样了）
accumulator: 其类型是BiFunction，输入是U与T两个类型的数据，而返回的是U类型；也就是说返回的类型与输入的第一个参数类型是一样的，而输入的第二个参数类型与Stream中元素类型是一样的。
combiner: 其类型是BinaryOperator，支持的是对U类型的对象进行操作；

3.2.3.1 非并行时

如果Stream是非并行的，combiner不生效；

Stream<String> s1 = Stream.of("aa", "ab", "c", "ad");
System.out.println(s1.reduce(new ArrayList<String>(), (r, t) -> {r.add(t); return r; }, (r1, r2) -> r1));

可以看出输入类型是String,也就是T。输出的是ArrayList,也就是U。

        Stream<String> s1 = Stream.of("aa", "ab", "c", "ad");
        s1.reduce(new ArrayList<String>(), 
                (r, t) -> {if (t.contains("a")) r.add(t);  return r;},
                (r1, r2) -> r1)
                .stream().forEach(System.out::println);//aa ab ad

完成了筛选包含"a"的单词，并加入ArrayList。在非并行时，其实第三个参数没有太大意义，可以指定r1或者r2为返回值，也可以指定返回值为null。

3.2.3.2 并行

当Stream是并行时，第三个参数就有意义了，它会将不同线程计算的结果调用combiner做汇总后返回。

具体举例：

System.out.println(Stream.of(1, 2, 3).parallel().reduce(4, (s1, s2) -> s1 + s2
        , (s1, s2) -> s1 + s2));//18

如果是非并行时，初始值为4,然后执行累加，应该是10。那为什么并行时为18，因为多线程并行时，多个线程分别取执行参数2的操作，就是：4+1=5 4+2=6 4+3=7得到了5,6,7这三个数，最后就是把各个线程并行处理的结果再执行第三个参数规定的操作即累加。

5+6+7=18

再来个例子：

Stream<String> s1 = Stream.of("aa", "ab", "c", "ad");
s1.parallel().reduce(new ArrayList<String>(),
        (r, t) -> {if (t.contains("a")) r.add(t);  return r; },
        (r1, r2) -> {System.out.println(r1==r2); return r2; })
        .stream().forEach(System.out::println);
//true true true null ab ad

前两个参数和之前一样，来判断是否包含a。其中System.out.println(r1==r2)这句打印的结果是什么呢？经过运行后发现是True！
**为什么会这样？**这是因为每次第二个参数也就是accumulator返回的都是第一个参数中New的ArrayList对象！因此combiner中传入的永远都会是这个对象，这样r1与r2就必然是同一样对象！
那如何在多线程并行时，实现这个功能，首先我第一版代码如下：

        Stream<String> s1 = Stream.of("aa", "ab", "c", "ad");
        s1.parallel().reduce(new ArrayList<String>(),
                (r, t) -> {if (t.contains("a")) r.add(t);  return r; },
                (r1, r2) -> r1)
                .stream().forEach(System.out::println);
//null null ad 结果每次都不同

很明显从结果来看，是多线程的锅。这里就要使用线程安全的集合类，否则在并行过程中可能因为多个线程同时操作这个集合对象而导致出现不可预知的结果

将代码改为：

        Stream<String> s1 = Stream.of("aa", "ab", "c", "ad");
        s1.parallel().reduce(Collections.synchronizedList(new ArrayList<>()),
                (r, t) -> {if (t.contains("a")) r.add(t);  return r; },
                (r1, r2) -> r1)
                .stream().forEach(System.out::println);//ab ad aa

出现了我们想要的结果，并且是多线程并行完成操作。

3.3 收集操作

collect：接收一个Collector实例，将流中元素收集成另外一个数据结构。

Collector<T, A, R> 是一个接口，有以下5个抽象方法：

Supplier < A>supplier()：创建一个结果容器A
BiConsumer<A, T> accumulator()：消费型接口，第一个参数为容器A，第二个参数为流中元素T。
BinaryOperator< A> combiner()：函数接口，该参数的作用跟上一个方法(reduce)中的combiner参数一样，将并行流中各个子进程的运行结果(accumulator函数操作后的容器A)进行合并。
Function<A, R> finisher()：函数式接口，参数为：容器A，返回类型为：collect方法最终想要的结果R。
Set characteristics()：返回一个不可变的Set集合，用来表明该Collector的特征。有以下三个特征：
CONCURRENT：表示此收集器支持并发。
UNORDERED：表示该收集操作不会保留流中元素原有的顺序。
IDENTITY_FINISH：表示finisher参数只是标识而已，可忽略。

Person p1 = new Person("zhangsan",26);
Person p2 = new Person("lisi",22);
Person p3 = new Person("wangwu",23);
List<Person> list = Arrays.asList(p1,p2,p3);
//装成list
List<Integer> ageList = list.stream().map(Person::getAge).collect(Collectors.toList());//[26,22,22]
//转成set
Set<Integer> ageSet = list.stream().map(Person::getAge).collect(Collectors.toSet());//[26,22]

//转成map,注:key不能相同，否则报错
Map<String, Integer> studentMap = list.stream().collect(Collectors.toMap(Person::getName, Person::getAge)); 
// {zhangsan=26, lisi=22, wangwu=22}

//字符串分隔符连接
String joinName = list.stream().map(Person::getName).collect(Collectors.joining(",", "(", ")")); 
// (zhangsan,lisi,wangwu)

//聚合操作
//1.总数
Long count = list.stream().collect(Collectors.counting()); // 3
//2.最大年龄 (最小的minBy同理)
Integer maxAge = list.stream().map(Person::getAge).collect(Collectors.maxBy(Integer::compare)).get(); // 26
//3.所有人的年龄求和
Integer sumAge = list.stream().collect(Collectors.summingInt(Person::getAge)); // 70
//4.平均年龄
Double averageAge = list.stream().collect(Collectors.averagingDouble(Person::getAge)); // 23.333333333333332
// 带上以上所有方法
DoubleSummaryStatistics statistics = list.stream().collect(Collectors.summarizingDouble(Person::getAge));
System.out.println("count:" + statistics.getCount() + ",max:" + statistics.getMax() + ",sum:" + statistics.getSum() + ",average:" + statistics.getAverage());
        
//分组 按年龄分组
Map<Integer, List<Person>> ageMap = list.stream().collect(Collectors.groupingBy(Person::getAge));
//分区
//分成两部分，一部分大于10岁，一部分小于等于10岁
Map<Boolean, List<Person>> partMap = list.stream().collect(Collectors.partitioningBy(v -> v.getAge() > 10));
//规约
Integer allAge = list.stream().map(Person::getAge).collect(Collectors.reducing(Integer::sum)).get(); //40

3.3.1 Collectors.toList() 解析

方法源码

public static <T>
Collector<T, ?, List<T>> toList() {
    return new CollectorImpl<>((Supplier<List<T>>) ArrayList::new, List::add,
                               (left, right) -> { left.addAll(right); return left; },
                               CH_ID);
}

源码这么看，比较难懂得，我按照我的理解将其写成这样：

public <T> Collector<T, ?, List<T>> toList() {
    Supplier<List<T>> supplier = () -> new ArrayList();
    BiConsumer<List<T>, T> accumulator = (list, t) -> list.add(t);
    BinaryOperator<List<T>> combiner = (list1, list2) -> {
        list1.addAll(list2);
        return list1;
    };
}

             (left, right) -> { left.addAll(right); return left; },
                           CH_ID);

}


源码这么看，比较难懂得，我按照我的理解将其写成这样：

```java
public <T> Collector<T, ?, List<T>> toList() {
    Supplier<List<T>> supplier = () -> new ArrayList();
    BiConsumer<List<T>, T> accumulator = (list, t) -> list.add(t);
    BinaryOperator<List<T>> combiner = (list1, list2) -> {
        list1.addAll(list2);
        return list1;
    };
}