1.数据:
事件的格式为 abc,3,20180503-110301
abc:统计的key值
3: key值的个数
20180503-110301: 事件时间戳
目标:
使用kafka存储产生的事件,然后用flink进行消费,采用flink的窗口机制,根据事件的时间戳,当两个事件的时间差到10s时,对这个窗口的事件进行统计。
输入:多行字符串
输出: 对输入的字符串进行wordcount,按事件时间的10s统计一次,输出3元组
(eee,7,20180504-113411|20180504-113415|20180504-113412|20180504-113419)
使用的api
AssignerWithPunctuatedWatermarks 用于发射水位线,默认当水位线大于窗口大小时触发窗口计算
FlatMapFunction 将数据进行切割,分成3元组
ReduceFunction 将多个3元组进行合并,输出为一个窗口的统计3元组
代码实现
1. 生产者
import org.apache.commons.lang.StringUtils;
import org.apache.kafka.clients.producer.*;
import java.io.IOException;
import java.util.Properties;
import java.util.Scanner;
public class KafkaNumCountProducer {
public static void main(String[] args) throws InterruptedException, IOException {
Properties props = new Properties();
props.put("bootstrap.servers", "10.36.8.128:9092");
props.put("acks", "all");
props.put("retries", 0);
props.put("batch.size", 16384);
props.put("linger.ms", 1);
props.put("buffer.memory", 33554432);
props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
Producer<String, String> producer = new KafkaProducer<>(props);
Scanner scanner = new Scanner(System.in);
String str;
while (scanner.hasNext()) {
str = scanner.nextLine();
if(!StringUtils.isBlank(str)) {
producer.send(new ProducerRecord<>("qiaqia_test_numcount", str), new Callback() {
@Override
public void onCompletion(RecordMetadata metadat