flume架构介绍！

最新推荐文章于 2021-01-27 16:55:54 发布

anickname

最新推荐文章于 2021-01-27 16:55:54 发布

阅读量1.1k

点赞数

文章标签： flume 日志收集

本文链接：https://blog.csdn.net/javajxz008/article/details/50550410

版权

flume 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一。什么是flume？

一个实时日志收集工具，具有分布式，高可靠，高可用等特点。接受各类型数据发送方，对数据可进行简单的处理，传输到各类数据接收方。

二。架构

单节点：

多节点：

架构介绍：

基本概念：

1.event：是数据传输的基本单元，source接受event或通过特殊机制产生event，其由header和载有数据的字节数据组成。其可以在路由过程中扩展。接口定义如下：

public interfaceEvent {
publicMap<String, String> getHeaders();
public voidsetHeaders(Map<String, String> headers);
public byte[] getBody();
public void setBody(byte[] body);
}

2.source：数据源，接受event，并将其放入到一个或多个channel上去。有2中类型的source，一种是轮询，一种是event驱动。

不同类型的source：

avro，thift，exec，http，syslog，jms,file(soopdir)

3.channel:缓存event，当sink从channel中成功取走数据，event将会被从channel中移除。根据channel的持久化水平不同，有多种

类型的channel：其支持食物，提供较弱的顺序保证。

·memory：不会被持久化，高吞吐量，但无法保证可靠性。

·file：WAL（预写式日志）的实现，配置较为复杂，将数据持久化到数据目录中，保证其传输的可靠性。

·jdbc：采用内置的Derby数据库，可靠性高，有望取代file。

4.sink：将数据发送至下一跳或者最终目的地。sink有多种：

·hdfs

·hbase

·avro：avro的source（可自定义avro的server），多用于agent之间数据传输。

·thift

·file

延伸概念：

1.用户source的interceptor：对event做必要的过滤。内建的interceptor在hearders中加入时间戳、主机名、静态标记等等。定制的interceptor可以在必要的地方创建headers

2.channel selector：基于source选择一个或多个channel。内建的channel selectors：

replicating：复制event

multiplexing：复用，将event路由至特定的channel

3.sink selector:sink processor作为sink的代理，多个sink组成一个sink group，sink processor从sink group中激活sink。sink porcessors通过sink group中所有的sink实现负载均衡，也可以在sink失败时转移到另一个（故障转移）。换句话说flume是

通过sink processor实现负载均衡（load balancing）和故障转移（failover）。所有的sink都是采取轮询的方式从channel上获取event，此步动作有sink runner激活。

4.collector：对数据汇总处理（如数据要sink到hbase之前用collector处理下）。

flume的可靠性体现在：

1.agent之间数据传输是事务性的。

2.channel是支持持久化的。

flume的可用性体现在：

1.内建的负载均衡

2.内建的故障转移

三。可靠性数据传输（事务）

如下图所示：