Flink Sink 接收数据的顺序(Window发送数据顺序)
概述
- InternalTimerServiceImpl.processingTimeTimersQueue存储着同一个Window中所有Key,取第一个key,调用WindowOperator.onProcessingTime进行处理,并发送给Sink
- InternalTimerServiceImpl.processingTimeTimersQueue key处理的顺序是,先处理第一个,然后依次把最后一个元素放到第一个元素进行处理
- Key,处理的顺序,如 1 2 3 5 4,就会变成
1 4 5 3 2
输入数据
1 2 1 3 2 5 4
源码分析
RecordWriter.emit
- 当WordCount中的数据经过Operator(Source,FlatMap,Map) 处理后,通过RecordWriter.emit()函数发射数据
- 此时发这样的数据格式发送
WordWithCount(1,1)
WordWithCount(2,1)
WordWithCount(1,1)
WordWithCount(3,1)
WordWithCount(2,1)
WordWithCount(5,1)
WordWithCount(4,1)
- WindowOperator.processElement会接收并处理
private void emit(T record, int[] targetChannels) throws IOException, InterruptedException {serializer.serializeRecord(record);boolean pruneAfterCopying = false;for (int channel : targetChannels) {if (copyFromSerializerToTargetChannel(channel)) {pruneAfterCopying = true;}}// Make sure we don't hold onto the large intermediate serialization buffer for too longif (pruneAfterCopying) {serializer.prune();}}
WindowOperator.processElement(StreamRecord element)
- WindowOperator.processElement,给每一个WordWithCount(1,1) 这样的元素分配window,也就是确认每一个元素属于哪一个窗口,因为需要对同一个窗口的相同key进行聚合操作
final Collection elementWindows = windowAssigner.assignWindows( element.getValue(), element.getTimestamp(), windowAssignerContext);
- 把当前元素增加到state中保存,add函数中会对相同key进行聚合操作(reduce),对同一个window中相同key进行求和就是在这个方法中进行的
windowState.add(element.getValue());
- triggerContext.onElement(element),对当前元素设置trigger,也就是当前元素的window在哪个时间点触发(结束的时间点), 把当前元素的key,增加到InternalTimerServiceImpl.processingTimeTimersQueue中,每一条数据会加一次,加完后会去重,相当于Set,对相同Key的处理, 后面发送给Sink的数