大数据技术之Flume（理论）

最新推荐文章于 2020-05-30 14:59:02 发布

青城雪

最新推荐文章于 2020-05-30 14:59:02 发布

阅读量194

点赞数

分类专栏：程序人生文章标签：大数据 Flume

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jimi0614/article/details/100560201

版权

一、Flume简介

Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。
Flume基于流式架构，容错性强，也很灵活简单。
Flume、Kafka用来实时进行数据收集，Spark、Flink用来实时处理数据，impala用来实时查询。

二、Flume角色

在这里插入图片描述
2.1、Source
用于采集数据，Source是产生数据流的地方，同时Source会将产生的数据流传输到Channel，这个有点类似于Java IO部分的Channel。
2.2、Channel
用于桥接Sources和Sinks，类似于一个队列。
2.3、Sink
从Channel收集数据，将数据写到目标源(可以是下一个Source，也可以是HDFS或者HBase)。
2.4、Event
传输单元，Flume数据传输的基本单元，以事件的形式将数据从源头送至目的地。在这里插入图片描述

三、Flume传输过程

source监控某个文件或数据流，数据源产生新的数据，拿到该数据后，将数据封装在一个Event中，并put到channel后commit提交，channel队列先进先出，sink去channel队列中拉取数据，然后写入到HDFS中。

四、启动命令

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据技术之Flume（理论）

一、Flume简介Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。Flume基于流式架构，容错性强，也很灵活简单。Flume、Kafka用来实时进行数据收集，Spark、Flink用来实时处理数据，impala用来实时查询。二、Flume角色2.1、Source用于采集数据，Source是产生数据流的地方，同...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。