Flume和Kafka的区别

最新推荐文章于 2024-07-19 14:49:16 发布

tuuuuski

最新推荐文章于 2024-07-19 14:49:16 发布

阅读量1.3k

点赞数 2

分类专栏： Flume 大数据

本文链接：https://blog.csdn.net/shawnhu007/article/details/104601658

版权

大数据同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

Flume

4 篇文章 0 订阅

订阅专栏

Flume和Kafka都是分布式日志采集系统，但是两者其实差别很大，使用场景和很大

Flume
- Flume是Cloudera(就是那个CDH)公司开发的，是一个日志采集系统，
- Flume本质上自己不存储数据，他是接收数据，然后转发(Sink)数据，可以Sink到很多地方，Hdfs，数据库，文件，基本包含大部分格式，而且还可以自定义目的地
- 本质上Flume就是一个管道，类似于自来水管，Flume作为“水管”，自己不会主动"抽水"，而是等着外部把谁接进来。然后经过Flume“水管”，可以流向很多地方，并且Flume里面可以定制一些简单的数据处理，一份数据可以同时Sink到不同的地方
- Flume 数据安全性要求不高，没有备份也有没有副本，就是作为一个数据接收和传输器，一般用于外部数据(log,netcat等等)接入到Hadoop生态圈里面(Hdfs,Hive,HBase)
Kafka
- Kafka是Linkin开发的，也属于日志采集系统的范畴，但细化来讲是一个消息队列中间件
- Kafka可以持久化存储数据，并且有副本，不过一般会设置数据的时效性，所以也可以说是数据缓存系统；
- 相比于Flume是管道"水管"，Kafka则类似于容器“蓄水池”，“蓄水池”终究是暂时储水的地方，具体使用还得看下游(消费者)情况，那具体下游消费用来干嘛Kafka就管不着(有的人拿桶，一桶一桶来装，有的人拿水管来)，相比于Flume，则需要定义Sink到什么地方
- 虽然类比于“蓄水池”，但是水池里面的别人装走了就少了，而Kafka不同，下游consumers消费数据并不会删除数据，下游消费不过来就先存着，数据可以很多不同的consumers来他们消费互不干扰，消费速度也可以不一样；
常用的架构模型
- 线上数据（日志数据） => Flume =>Kafka => SparkStreaming(Flink、Storm)等实时场景
- 线上数据（日志数据） => Flume =>HDFS/HBase/数据库=>离线Spark，MR等离线处理场景
- 线上数据=>Flume=>Kafka=>Hdfs、HBase

tuuuuski

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Flume和Kafka的区别

Flume和Kafka都是分布式日志采集系统，但是两者其实差别很大，使用场景和很大FlumeFlume是Cloudera(就是那个CDH)公司开发的，是一个日志采集系统，Flume本质上自己不存储数据，他是接收数据，然后转发(Sink)数据，可以Sink到很多地方，Hdfs，数据库，文件，基本包含大部分格式，而且还可以自定义目的地本质上Flume就是一个管道，类似于自来水管，Flum...
复制链接

扫一扫

专栏目录