flume+kafka实现根据消息的标识分配到不同的分区

最新推荐文章于 2024-08-04 18:29:42 发布

nebofeng

最新推荐文章于 2024-08-04 18:29:42 发布

阅读量5k

点赞数

分类专栏： bigdata 文章标签： kafka flume kafkasink

本文链接：https://blog.csdn.net/JustClimbing/article/details/79613900

版权

bigdata 专栏收录该内容

19 篇文章 1 订阅

订阅专栏

需求

在使用flume 收集 log的时候根据不同的消息表示可能是uid。或者是日期。等关键字段。
将消息发送到 kafka不同的分区
这里就不再贴详细代码主要讲一下自己的思路。

思路一：自定义在flume拦截器中使用 kafka producer 。直接将关键信息获取之后。根据逻辑。发送到不同的分区。
主要实现如图：
这里写图片描述

配置文件修改：
flume-conf.properties
这里写图片描述

code： github代码

思路二: 使用kafkasink

配置kafka sink

根据官方文档：
http://flume.apache.org/FlumeUserGuide.html#kafka-sink

这里写图片描述
将uid设置为key 。会自动根据key分区
主要代码与上面相同：（获取uid的方法可以使用正则截取。也可以根据log格式转为json对象）
http://blog.csdn.net/justclimbing/article/details/52265874

这里写图片描述

1.启动各个节点的zookeeper ，kafka服务。
2.启动 flume 启动对应的配置文件为上图。
3 。在另外的节点启动消费者； bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic nebo_test
4、然后在Zookeeper 找到console 消费者组console-consumer-xxx
ls /consumers
5、查看消费者组console-consumer-xxx下的kafka-topic1每个partition数据消费情况
bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --zookeeper localhost:2181 --group console-consumer-xxx

通过打印的log以及查看的结果可以看到不同的uid分到了不同的分区（截图省略）。
问题1：分区的个数要看你配置文件的个数。当然也可以使用命令更改
问题2：启动过程中如果出现问题。查看zookeeper ，flume，kafka的log文件。

以上为自己在学习中的一点小总结。不足的地方。希望大家多多指正，谢谢！