Flume和Kafka的区别

Flume和Kafka都是分布式日志采集系统,但是两者其实差别很大,使用场景和很大

  • Flume

    • Flume是Cloudera(就是那个CDH)公司开发的,是一个日志采集系统,
    • Flume本质上自己不存储数据,他是接收数据,然后转发(Sink)数据,可以Sink到很多地方,Hdfs,数据库,文件,基本包含大部分格式,而且还可以自定义目的地
    • 本质上Flume就是一个管道,类似于自来水管,Flume作为“水管”,自己不会主动"抽水",而是等着外部把谁接进来。然后经过Flume“水管”,可以流向很多地方,并且Flume里面可以定制一些简单的数据处理,一份数据可以同时Sink到不同的地方
    • Flume 数据安全性要求不高,没有备份也有没有副本,就是作为一个数据接收和传输器,一般用于外部数据(log,netcat等等)接入到Hadoop生态圈里面(Hdfs,Hive,HBase)
  • Kafka

    • Kafka是Linkin开发的,也属于日志采集系统的范畴,但细化来讲是一个消息队列中间件
    • Kafka可以持久化存储数据,并且有副本,不过一般会设置数据的时效性,所以也可以说是数据缓存系统;
    • 相比于Flume是管道"水管",Kafka则类似于容器“蓄水池”,“蓄水池”终究是暂时储水的地方,具体使用还得看下游(消费者)情况,那具体下游消费用来干嘛Kafka就管不着(有的人拿桶,一桶一桶来装,有的人拿水管来),相比于Flume,则需要定义Sink到什么地方
    • 虽然类比于“蓄水池”,但是水池里面的别人装走了就少了,而Kafka不同,下游consumers消费数据并不会删除数据,下游消费不过来就先存着,数据可以很多不同的consumers来他们消费互不干扰,消费速度也可以不一样;
  • 常用的架构模型

    • 线上数据(日志数据) => Flume =>Kafka => SparkStreaming(Flink、Storm)等实时场景
    • 线上数据(日志数据) => Flume =>HDFS/HBase/数据库=>离线Spark,MR等离线处理场景
    • 线上数据=>Flume=>Kafka=>Hdfs、HBase
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值