flume+kafka (分区实现默认单分区) （二）

最新推荐文章于 2023-02-23 13:53:00 发布

weixin_30297281

最新推荐文章于 2023-02-23 13:53:00 发布

阅读量250

点赞数

文章标签：大数据开发工具

原文链接：http://www.cnblogs.com/wjsshide/p/5020182.html

版权

这篇文章主要在上一篇文章的基础上讲一下如何自定义flume到kafka的分区

上一节中从下面的地址下载了一个源码

https://github.com/beyondj2ee/flumeng-kafka-plugin/tree/master/

我们只是从中获取了jar包。这次我们就利用下载的源码去自定义分区

把源码通过mvn eclipse:eclipse 转变为普通java项目导到eclipse中结构如上图

上节讲的SimglePartition已经标出，源码如下

public class SinglePartition implements Partitioner<String> {

    private static final Logger LOGGER = LoggerFactory.getLogger(SinglePartition.class);

    public SinglePartition(VerifiableProperties props) {
    }


    @Override
    public int partition(String key, int numberOfPartions) {

        return 0;
    }

}

我们把这个文件复制改名为ManyPartition 修改源码中绿线标示的位置即可

我的修改源码如下

public class ManyPartition implements Partitioner<String> {
    // - [ constant fields ] ----------------------------------------

    /**
     * The constant LOGGER.
     */
    private static final Logger LOGGER = LoggerFactory.getLogger(ManyPartition.class);


    private int count = 0;
    public ManyPartition(VerifiableProperties props) {
    }

    @Override
    public int partition(String key, int numberOfPartions) {
       return new Random().nextInt(numberOfPartions);
    }


}

然后通过 mvn clean package 重新编译会重新生成flumeng-kafka-plugin.jar 然后把此jar包替换flume/lib/下的同名jar包就可使用自定义分区类

而上一节中提到的配置文件中的producer.sinks.r.partition.key=4 实际上没有多大的作用

他对应源码中KafkaSink类的process()方法中的代码入下图标出所示

实际传入不传入这个partititonId没有任何区别因为即使传入ParitionId 也是一个固定值因此没有办法依照这个Id进行分区

转载于:https://www.cnblogs.com/wjsshide/p/5020182.html

weixin_30297281

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
flume+kafka (分区实现默认单分区) （二）

这篇文章主要在上一篇文章的基础上讲一下如何自定义flume到kafka的分区上一节中从下面的地址下载了一个源码https://github.com/beyondj2ee/flumeng-kafka-plugin/tree/master/我们只是从中获取了jar包。这次我们就利用下载的源码去自定义分区把源码通过mvn eclipse:eclipse 转变为普通java...
复制链接

扫一扫