流是什么
流是java API的新成员,它允许你以声明性的方式处理数据集合(通过查询语句来表达,而不是临时编写一个实现)。
流还可以透明地并行处理,无需写任何多线程代码。
代码示例:
- 代码是以声明性的方式写的:说明想要完成什么而不是说明如何实现一个操作(利用循环和if条件等控制流语句)
- 可以把几个基础操作链接起来,来表达复杂的数据处理流水线,同时保持代码清晰可读。
流简介
流的简短定义:从支持数据处理操作的源生成的元素序列
- 元素序列:就像集合一样,流也提供了一个接口,可以访问特定元素类型的一组有序值。因为集合是数据结构,主要目的是以特定的时间/空间复杂度存储和访问元素。但流的目的在于表达计算。集合讲的是数据,流讲的是计算。
- 源:流会使用一个提供数据的源。注意:从有序集合生成流时会保留原有的顺序。由列表生成的流,其元素顺序与列表一致。
- 数据处理操作:流的数据处理功能支持类似数据库的操作,以及函数式编程语言中的常用操作,如filter、map、reduce、find、match、sort等。流操作可以顺序执行,也可以并行执行。
- 流水线:很多流操作本身会返回一个流,这样多个操作就可以链接起来,形成一个大的流水线。
- 内部迭代:流的迭代操作是在背后进行的。
流 vs 集合
流 | 集合 |
---|---|
流是在概念上固定的数据结构(你不能添加或删除元素),其元素是按需计算的。 | 集合是一个内存中的数据结构,它包含数据结构中目前所有的值——集合中的每个元素都得先算出来才能添加到集合中,集合中的每个元素都是放在内存里的 |
流就像是一个延迟创建的集合:只有在消费者要求的时候才会计算值 | 集合是急切创建的 |
流只能遍历一次 | 集合可以遍历多次 |
内部迭代 | 外部迭代 |
流只能遍历一次
流只能遍历一次。遍历完了之后,我们就说这个流已经被消费掉了。你可以从原始数据源那里再获得一个新的流来重新遍历一遍。
内部迭代与外部迭代
Collection接口需要用户去做迭代(如for-each)——外部迭代
Streams库使用内部迭代——它帮你把迭代做了,还把得到的流存在了某个地方,你只要给出一个函数说要干什么就可以了。
流操作
中间操作 与 终端操作
可以连接起来的操作称为中间操作(filter、map、limit等)。
关闭流的操作称为终端操作(collect)。
除非流水线上触发一个终端操作,否则中间操作不会执行任何处理。
中间操作一般都可以合并起来,在终端操作时一次性全部处理。
终端操作会从流的流水线生成结果。其结果是任何不是流的值,比如List、Integer、甚至void。
使用流
流的使用一般包括三件事:
- 一个数据源(如集合)来执行一个查询
- 一个中间操作,形成一条流的流水线
- 一个终端操作,执行流水线,并能生成结果