Flink实时订单统计示例
/**
- 首先实现了一个模拟的数据源,它继承自 RichParallelSourceFunction,
- 它是可以有多个实例的 SourceFunction 的接口。
- 它有两个方法需要实现,一个是 Run 方法,Flink 在运行时对 Source 会直接调用该方法,该方法需要不断的输出数据,从而形成初始的流。
- 在 Run 方法的实现中,我们随机的产生商品类别和交易量的记录,然后通过 ctx#collect 方法进行发送。
- 另一个方法是 Cancel 方法,当 Flink 需要 Cancel Source Task 的时候会调用该方法,
- 我们使用一个 Volatile 类型的变量来标记和控制执行的状态。
- 然后,我们在 Main 方法中就可以开始图的构建。我们首先创建了一个 StreamExecutioniEnviroment 对象。
- 创建对象调用的 getExecutionEnvironment 方法会自动判断所处的环境,从而创建合适的对象。
- 例如,如果我们在 IDE 中直接右键运行,则会创建 LocalStreamExecutionEnvironment 对象;
- 如果是在一个实际的环境中,则会创建 RemoteStreamExecutionEnvironment 对象。
- 基于 Environment 对象,我们首先创建了一个 Source,从而得到初始的<商品类型,成交量>流。
- 然后,为了统计每种类别的成交量,我们使用 KeyBy 按 Tuple 的第 1 个字段(即商品类型)对输入流进行分组,
- 并对每一个 Key 对应的记录的第 2 个字段(即成交量)进行求合。
- 在底层,Sum 算子内部会使用 State 来维护每个Key(即商品类型)对应的成交量之和。
- 当有新记录到达时,Sum 算子内部会更新所维护的成交量之和,并输出一条<商品类型,更新后的成交量>记录。
- 如果只统计各个类型的成交量,则程序可以到此为止,我们可以直接在 Sum 后添加一个 Sink 算子对不断更新的各类型成交量进行输出。
- 但是,我们还需要统计所有类型的总成交量。为了做到这一点,我们需要将所有记录输出到同一个计算节点的实例上。
- 我们可以通过 KeyBy 并且对所有记录返回同一个 Key,将所有记录分到同一个组中,从而可以全部发送到同一个实例上。
- 然后,我们使用 Fold 方法来在算子中维护每种类型商品的成交量。
- 注意虽然目前 Fold 方法已经被标记为 Deprecated,但是在 DataStream API 中暂时还没有能替代它的其它操作,
- 所以我们仍然使用 Fold 方法。这一方法接收一个初始值,然后当后续流中每条记录到达的时候,算子会调用所传递的 FoldFunction 对初始值进行更新,
- 并发送更新后的值。我们使用一个 HashMap 来对各个类别的当前成交量进行维护,当有一条新的<商品类别,成交量>到达时,
- 我们就更新该 HashMap。这样在 Sink 中,我们收到的是最新的商品类别和成交量的 HashMap,我们可以依赖这个值来输出各个商品的成交量和总的成交量。
- 需要指出的是,这个例子主要是用来演示 DataStream API 的用法,实际上还会有更高效的写法,此外,更上层的 Table / SQL 还支持 Retraction 机制,可以更好的处理这种情况。
*/
import org.apache.flink.api.common.functions.FoldFunction;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple;//需要导入Java的包,不要导入Scala的包
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org