阅读前需要掌握的内容
什么是pipeline( 流水线 )?
数据流水线充分利用了多核特性,代码层面是基于 channel 类型 和 go 关键字。
对于"流水线"这个概念,Go语言中并没有正式的定义,它只是很多种并发方式的一种。这里我给出一个非官方的定义:一条流水线是 是由多个阶段组成的,相邻的两个阶段由 channel 进行连接
每个阶段是由一组在同一个函数中启动的 goroutine 组成。在每个阶段,这些 goroutine 会执行下面三个操作:
- 通过 inbound channels 从上游接收数据
- 对接收到的数据执行一些操作,通常会生成新的数据
- 将新生成的数据通过 outbound channels 发送给下游
除了第一个和最后一个阶段,每个阶段都可以有任意个 inbound 和 outbound channel。显然,第一个阶段只有 outbound channel,而最后一个阶段只有 inbound channel。我们通常称第一个阶段为"生产者"或"源头",称最后一个阶段为"消费者"或"接收者"。
流水线进阶:扇入和扇出
-
扇出:同一个 channel 可以被多个函数读取数据,直到channel关闭。
这种机制允许将工作负载分发到一组worker,以便更好地并行使用 CPU 和 I/O。 -
扇入:多个 channel 的数据可以被同一个函数读取和处理,然后合并到一个 channel,直到所有 chann