Kafka与Flume比较

最新推荐文章于 2023-05-30 11:54:35 发布

月正明

最新推荐文章于 2023-05-30 11:54:35 发布

阅读量238

点赞数

分类专栏： Kafka Flume 文章标签： kafka flume 区别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38023225/article/details/102516780

版权

Flume 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

在企业中必须要清楚流式数据采集框架flume和kafka的定位是什么：

1 Flume

flume：cloudera公司研发

1.适合多个生产者；

多数据源数据汇总

可以参考Flume采集案例：https://blog.csdn.net/weixin_38023225/article/details/102495990

2.适合下游数据消费者不多的情况；

如果消费者多（如上图HDFS，JMS等），Agent foo会产生多个副本（Channel1,Channel2,Channel3）对应，数据冗余严重。

可参考Flume采集案例：https://blog.csdn.net/weixin_38023225/article/details/102487745

3.适合数据安全性要求不高的操作；

更多的是使用Memory Channel,在实时框架中处理，追求的是速度，无本地缓存，数据有丢失风险。

4.适合与Hadoop生态圈对接的操作。

如，可以通过配置文件配置hdfs sink, hbase sink，直接可以对接HDFS,HBASE等，不用写多余代码。

2 Kafka

kafka：linkedin公司研发

1.适合数据下游消费众多的情况；

消息是基于pull模式，由消费者自己决定

2.适合数据安全性要求较高的操作，支持replication。

安全性：有本地文件缓存（默认存储7天）

支持replication：

kafka副本与flume副本机制不同

flume副本机制是从消费者出发，新增消费者就必须新增副本Channel。

flume副本是从数据安全性，可靠性出发，可以设置1个副本，也可以设置多个副本（Leader/Fllower模式，生产消费者只与Leader交流）。

3 常用模型

线上数据（生产者多） --> flume --> kafka --> flume(根据情景增删该流程) --> HDFS

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。