Flume整体介绍

最新推荐文章于 2024-11-08 15:51:22 发布

一直打铁

最新推荐文章于 2024-11-08 15:51:22 发布

阅读量225

点赞数 1

分类专栏： flume 文章标签： flume flume整体介绍

本文链接：https://blog.csdn.net/mamamalululu00000000/article/details/97796260

版权

flume 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Flume整体介绍

一、Flume 作用与角色
二、Flume 架构
三、Flume 核组件讲解
四、flume 代码结构解析
五、Flume 安装
六、典型应用实例

一、Flume 作用与角色

Flume: 是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错性。它使用简单的可扩展数据模型，允许在线分析应用程序。

作用：收集日志(比如从web 端收集到 --》 Hadoop) .Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的，因此Flume可用于传输大量事件数据，包括但不限于网络流量数据，社交媒体生成的数据，电子邮件消息以及几乎任何可能的数据源。

二、Flume 架构

flume实际上就是一个Agent。Agent里面包含三大组件：Source、Channel、Sink。

Flume agent流动的数据单位为一个Event。一个Flume agent 是一个JVM进程，维持允许Events从一个外部source流动到一个外部目的地的组件。
在这里插入图片描述
Events被外部source（例如web server）发送到Source，被发送的Events要有特定的格式。例如，AvroSource可以用来接受来自客户端的Avro Events或者其他Flume agent。当Source接受Event时，Source存储Event进一个或多个Channels。该Channel是一个活的存储，保存Event直到它被Sink消费。Sink把Event从Channel中移除并把Event放进外部存储库，如HDFS。Source和Sink在Agent里面是异步运行的。

三、Flume 核组件讲解

3.1 Flume 有三大组件，source ，channel ，Sink

source : 源头

采集源,有
Avro Source
Thrift Source
Exec Source
JMS Source
Spooling Directory Source
Taildir Source
Twitter 1% firehose Source
Kafka Source
NetCat TCP Source
NetCat UDP Source
Sequence Generator Source
Syslog Sources
. . . 还可以自定义 Source，继承org.apache.flume.source.AbstractSource来实现.