集合流元素

最新推荐文章于 2023-06-26 16:13:07 发布

西木NT

最新推荐文章于 2023-06-26 16:13:07 发布

阅读量180

点赞数

分类专栏： Java 多线程

Java 同时被 2 个专栏收录

98 篇文章 0 订阅

订阅专栏

多线程

98 篇文章 0 订阅

订阅专栏

Java 9并发编程指南目录

集合流元素

准备工作
实现过程
工作原理
扩展学习
更多关注

Java流使用连续或者并行方式来处理序列元素。能够通过不同的数据来源创建流，例如Collection，File或者Array，以及通常用lambda表达式定义的操作序列作用在这些元素上。这些操作被拆分成两种不同的类：

**中间操作：**这些操作通常伴随结果生成新的流，用来对流元素进行转换、筛选和排序
**终点操作：**这些操作在处理流元素之后返回结果

流包括来源，零个或多个中间操作，以及一个终点操作。两个最重要的终点操作是：

归约操作在处理流元素之后得到唯一结果。此结果通常是被处理数据的总结。“归约流元素”小节解释如何使用Java中的归约操作。
集合操作是生成具有处理的流元素结果的数据结构。由于结果是一个可变的数据结构，所以也称为可变还原操作。

本节中，使用Java流中不同版本的collect()方法和附属Collectors类执行集合操作。

准备工作

本范例通过Eclipse开发工具实现。如果使用诸如NetBeans的开发工具，打开并创建一个新的Java项目。

实现过程

在本节中，将实现之前描述的如何通过输入源创建流的范例。通过如下步骤实现范例：

首先，创建本范例中用到的辅助类。查看小节“创建不同来源的流”，复用范例中的Person和PersonGenerator类。

在Person类中，使用如下代码重写toString()方法，返回人员的姓和名：

	@Override
	public String toString() {
		return firstName + " " + lastName;
	}

然后，创建名为Counter的类，包括两个属性：名为value的String属性、名为counter的int属性。生成两个属性的get()和set()方法。代码很简单，不在此列出。

现在创建包含Main()方法的Main类，然后使用PersonGenerator类从黄建一个随机的Person对象列表：

public class Main {
	public static void main(String[] args) {
		List<Person> persons = PersonGenerator.generatePersonList(100);

将要实现的第一个集合操作生成一个Map，其中键是人员的姓，值将是具有这个姓的所有人员列表。使用Stream类和Collectors.groupingByConcurrent收集器来实现此操作。然后，使用forEach()方法处理映射的所有键值（姓），且输出这个键值下的人员个数到控制台。作为groupingByConcurrent()方法的参数，传递一个方法引用。如果只调用一个现有的方法，如本范例所示，我们可以在lambda表达式中使用此机制：
```
		Map<String, List<Person>> personsByName = persons.parallelStream().collect(Collectors.groupingByConcurrent(Person::getFirstName));
		personsByName.keySet().forEach(key -> {
			List<Person> listOfPersons = personsByName.get(key);
			System.out.printf("%s: There are %d persons with that name\n", key, listOfPersons.size());
		});
```
将要实现的第二个集合操作连接所有人员的所有名字。为了实现此操作，用到Person对象的toString()方法，Stream类的collect()方法，以及Collectors类的joining()方法连接特定的char序列拆分的流的所有元素:
```
		String message = persons.parallelStream().map(p -> p.toString()).collect(Collectors.joining(","));
		System.out.printf("%s\n", message);
```
在将要实现的下一个集合操作，先将流中的人员拆分成两组。第一组人员的薪水超过50000，其他人员归为第二组。此操作结果是一个Map对象，包括一个Boolean值作为键，人员列表作为值。为了实现此操作，用到Stream类的collect()方法，Collectors类的partitionBy()方法接收Boolean表达式为参数，根据true或者false值，将流元素拆分成两组。然后使用forEach()方法输出生成的列表的元素数量：
```
		Map<Boolean, List<Person>> personsBySalary =persons.parallelStream().collect(
			Collectors.partitioningBy(p -> p.getSalary() > 50000)
		);
	
		personsBySalary.keySet().forEach(key -> {
			List<Person> listOfPersons = personsBySalary.get(key);
			System.out.printf("%s: %d \n", key, listOfPersons.size());
		});
```
接下来，将要实现的集合操作生成另一个Map。其键是人员的姓，值是对应人员的姓与名连接成字符串。为实现此形式，使用Stream类的collect()方法和Collectors类的toConcurrentMap()方法。将三个lambda表达式作为参数传到toConcurrentMap()方法中，一个获取键，一个获取值，以及一个lambda表达式用来解析最后的映射中键值的情况。然后，使用forEach()方法处理所有键，以及输出关联值：
```
		ConcurrentMap<String, String> nameMap = persons.parallelStream().collect(
			Collectors.toConcurrentMap(p -> p.getFirstName(), p -> p.getLastName(), (s1, s2) -> s1 + ", " + s2));
		nameMap.forEach((key, value) -> { 
			System.out.printf("%s: %s \n", key, value); 
		});
```
到此为止，已经实现的collect()方法的所有例子中，使用此方法的版本来接收Collector接口的实现。还有另一种collect()方法的版本。使用此版本的collect()方法，实现集合操作来生成薪水超过50000的人员列表。向collect()方法传递一个表达式创建List（List::new方法），一个lambda表达式处理列表的流的一个元素，以及一个表达式处理两个列表（List::addAll方法）：
```
		List<Person> highSalaryPeople = persons.parallelStream().collect(ArrayList::new, (list, person) -> {
				if (person.getSalary() > 50000) {
					list.add(person);
				}
			},ArrayList::addAll);
		System.out.printf("High Salary People: %d\n", highSalaryPeople.size());
```
最后，生成一个ConcurrentHashMap，包含person对象列表中出现的姓，以及每个姓出现的次数。我们将使用人员的姓作为键，Counter对象作为值。集合操作的第一个参数将创建新的ConcurrentHashMap对象，第二个参数是BiConsumer接口的一个实现，此接口接收ConcurrentHashMap和Person作为参数。首先，如果人员存在，使用哈希的computeIfPresent()方法增加人员的Counter值。然后，如果人员不存在，使用哈希的computeIfAbsent()方法插入一个新的人员名称。collect()方法的第三个参数是BiConsumer接口的一个实现，此接口接收两个ConcurrentHashMap对象，并且使用merge()方法处理第二个哈希中的所有元素，如果人员不存在或者计数器没增加的话，将这些元素插入到第一个哈希中。

		System.out.printf("Collect, second example\n");
		
		ConcurrentHashMap<String, Counter> peopleNames = persons.parallelStream().collect(
			ConcurrentHashMap::new, (hash, person) -> {
				hash.computeIfPresent(person.getFirstName(), (name, counter) -> {
					counter.increment();
					return counter;
				});
				hash.computeIfAbsent(person.getFirstName(), name -> {
					Counter c=new Counter();
					c.setValue(name);
					return c;
				});
			},
			(hash1, hash2) -> {
				hash2.forEach (10, (key, value) -> {
					hash1.merge(key, value, (v1,v2) -> {
						v1.setCounter(v1.getCounter()+v2.getCounter());
						return v1;
					});
				});
			});
		peopleNames.forEach((name, counter) -> {
			System.out.printf("%s: %d\n", name, counter.getCounter());
		});
	}

工作原理

在本节介绍中我们提到，collect()方法实现流元素的可变归约。称其为可变归约是因为流的最终结果将是可变的数据结构，例如Map或者List。Java 并发API的Stream类提供collect()方法的两个版本：

第一个版本只接收Collector接口实现作为参数。此接口有七个方法，所以一般不需要再定制方法。取而代之使用工具类Collectors，有许多方法可以为归约操作返回现成的Collectors对象。本范例中，用到Collectors类的方法如下所示：

groupingByConcurrent()：此方法返回Collector对象，这个对象通过以并发方式操作流元素来实现一个组，生成Map作为结果数据结构。此方法接收一个表达式作为参数，获取来自流元素的映射中使用的键值。在生成的Map里，键将是参数表达式返回的类型，值是流元素的List。
joining()：此方法返回Collector，将流元素连接成String。指定三个CharSequence对象，包含一个元素的分隔符、结尾String的前缀和后缀。
partitioningBy()：此方法返回的Collector与第一个类似。它接收具有流元素的布尔型表达式为参数，并将流元素组织为两组: 一组满足表达式、另一组不符合。最终结果将是布尔型值为键和流元素类型列表为值的映射。
toConcurrentMap()：此方法返回以并发方式生成ConcurrentMap的Collector，接收三个参数：
- 生成来自流元素的键的表达式
- 生成来自流元素的值的表达式
- 当有两个或多个具有相同键的元素时，由两个结果生成值的表达式。

Collector有一组定义其行为的特性，可以为特定的收集器确定是否定义。对于我们来说，最重要的是CONCURRENT特性，它指明收集器是否能够以并发方式工作。在这种情况下，就不能通过创建并行流来利用多核处理器。如果我门使用Collector进行集合操作，还需要考虑Collector的CONCURRENT特性值。如果以下三个条件均为true的话，则只能具有一个并发归约：

Stream是并行的（我们已经在流中用到parallel()方法的parallelStream()）
收集器具有CONCURRENT特性
流是无序的，或者收集器具有UNORDERED特性

本范例中，groupingByConcurrent()和toConcurrentMap()返回具有CONCURRENT特性的收集器，joining()和partitionBy()方法返回不具有这个特性的收集器。

此外，collect()方法还有另一个版本能够在并行流中使用。此版本的collect()方法接收如下三个参数：

一个供应函数用来生成集合操作的最终结果类型的数据结构。在并行流中，有多少线程执行此操作，此方法就被调用多少次。
一个累加器函数接收数据结构和流元素，并处理流元素。
一个组合函数接收两个数据结构，并生成相同类型的唯一数据结构。

通过使用lambda表达式来实现这些函数，也能够使用Supplier接口实现供应函数，或者BitConsumer接口实现累加器函数和组合函数（总是用充足的数据类型参数化）。如果输入和输出参数足够的话，也可以使用方法引用（Class::Method）。例如，我们已经用到List::new引用作为供应函数，以及List::addAll方法作为组合函数。也可以使用List::add方法作为累加器函数。还有很多方法用作collect()方法的参数。

下图显示groupingByConcurrent()操作的输出信息：

pics/06_01.jpg

下图显示toConcurrentMap()操作的输出信息：

pics/06_03.jpg

扩展学习

Collectors类具有很多返回能够在collect()方法中使用的Collect对象的方法。如下所示：

toList()：此方法返回Collector，将Stream中的所有元素分组成List。
toCollection()：此方法返回Collector，将Stream中的所有元素分组成Collection。此方法返回创建集合的表达式作为参数，此表达式通过Collector内部使用且在执行结束时返回。
averagingInt()、averagingLong()和averagingDouble()：这些方法返回Collector，用来计算int、long和double数的平均值。它们接收表达式为参数，将流元素转换成int、long或者double类型。这些方法返回double值。