flink消费kafka消息,自定义keyselector

该博客介绍了如何通过自定义KeySelector策略,确保Kafka消息中具有相同url字段的内容被分配到同一个消费窗口进行处理。通过将消息体解析并提取url字段作为keyBy的依据,可以实现特定业务需求的窗口分组,从而保证同一url的消息由同一线程消费。
摘要由CSDN通过智能技术生成

为了能达到在不同的keyby/window中,能按照自定义的业务要求,把相同的消息分到同一个消费窗口,需要自定义keyselector,如本例中,我想要按照消息体中的url字段,把相同url字段的消息,用同一个线程来消费:写法为:

//通过自定义keyby selector,能保证相同url的新媒体消息,出现在同一个keyby/window窗口
        env.fromSource(newSource, WatermarkStrategy.noWatermarks(), "newPageSource")
                .keyBy((KeySelector<ConsumerRecord, Object>) consumerRecord -> {
                    String jsonStr = new String((byte[]) consumerRecord.value(),
                            StandardCharsets.UTF_8);
                    if (StrUtil.isNotBlank(jsonStr) && !"null".equals(jsonStr)) {
                        JSONObject jsonObject = JSONUtil.parseObj(jsonStr);
                        String url = jsonObject.getStr("url");
                        return url;
                    }

                    return "";
                }).addSink(newPageSink).name("newPageSink");

可以使用 FlinkKafka Consumer 和 HBase Sink 来实现这个功能。具体步骤如下: 1. 创建 Flink Kafka Consumer,读取 Kafka 中的数据。 ``` FlinkKafkaConsumer<String> kafkaConsumer = new FlinkKafkaConsumer<>("topic", new SimpleStringSchema(), properties); DataStream<String> stream = env.addSource(kafkaConsumer); ``` 2. 对数据进行处理,自定义组合成 HBase 中的 RowKey 和列簇。 ``` DataStream<Tuple2<String, String>> hbaseStream = stream.map(new MapFunction<String, Tuple2<String, String>>() { @Override public Tuple2<String, String> map(String value) throws Exception { // 自定义生成 RowKey 和列簇 String rowkey = generateRowkey(value); String columnFamily = generateColumnFamily(value); return new Tuple2<>(rowkey, columnFamily); } }); ``` 3. 创建 HBase Sink,将数据写入 HBase 中。 ``` Configuration hbaseConf = HBaseConfiguration.create(); hbaseConf.set("hbase.zookeeper.quorum", "localhost"); hbaseConf.set("hbase.zookeeper.property.clientPort", "2181"); DataStreamSink<Tuple2<String, String>> sink = hbaseStream.addSink(new HBaseSink(hbaseConf, "tableName")); ``` 其中,`generateRowkey` 和 `generateColumnFamily` 方法需要根据业务逻辑自行实现。HBaseSink 实现可参考以下代码: ``` public class HBaseSink extends RichSinkFunction<Tuple2<String, String>> { private Configuration hbaseConf; private String tableName; private transient Connection connection; private transient Table table; public HBaseSink(Configuration hbaseConf, String tableName) { this.hbaseConf = hbaseConf; this.tableName = tableName; } @Override public void open(Configuration parameters) throws Exception { connection = ConnectionFactory.createConnection(hbaseConf); table = connection.getTable(TableName.valueOf(tableName)); } @Override public void close() throws Exception { table.close(); connection.close(); } @Override public void invoke(Tuple2<String, String> value, Context context) throws Exception { Put put = new Put(Bytes.toBytes(value.f0)); byte[] cfBytes = Bytes.toBytes(value.f1); put.addColumn(cfBytes, Bytes.toBytes("qualifier"), Bytes.toBytes("value")); table.put(put); } } ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值