Flume采集系统组件解析

最新推荐文章于 2023-04-17 17:40:31 发布

qq_43193797

最新推荐文章于 2023-04-17 17:40:31 发布

阅读量185

点赞数

分类专栏： Flume

本文链接：https://blog.csdn.net/qq_43193797/article/details/88663568

版权

Flume 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1. Source

Avro Source

侦听Avro端口并从外部Avro客户端流接收事件。当与另一个（上一跳）Flume代理的内置Avro Sink配对时，它可以创建分层收集拓扑。

Taildir Source

在Flume1.7之前如果想要监控一个文件新增的内容，我们一般采用的source 为 exec tail ,但是这会有一个弊端，就是当你的服务器宕机重启后，此时数据读取还是从头开始，这显然不是我们想看到的！在Flume1.7 没有出来之前我们一般的解决思路为：当读取一条记录后，就把当前的记录的行号记录到一个文件中，宕机重启时，我们可以先从文件中获取到最后一次读取文件的行数，然后继续监控读取下去。保证数据不丢失、不重复。

在Flume1.7时新增了一个source 的类型为taildir，它可以监控多个文件，并且实现了实时读取记录保存的断点续传功能。

2. Channel

Memory Channel

Memory Channel把Event保存在内存队列中，该队列能保存的Event数量有最大值上限。由于Event数据都保存在内存中，Memory Channel有最好的性能，不过也有数据可能会丢失的风险，如果Flume崩溃或者重启，那么保存在Channel中的Event都会丢失。同时由于内存容量有限，当Event数量达到最大值或者内存达到容量上限，Memory Channel会有数据丢失。

File Channel

File Channel把Event保存在本地硬盘中，比Memory Channel提供更好的可靠性和可恢复性，不过要操作本地文件，性能要差一些。

Kafka Channel

Kafka Channel把Event保存在Kafka集群中，能提供比File Channel更好的性能和比Memory Channel更高的可靠性。

3. Sink

Avro Sink

Avro Sink是Flume的分层收集机制的重要组成部分。发送到此接收器的Flume事件变为Avro事件，并发送到配置指定的主机名/端口对。事件将从配置的通道中按照批量配置的批量大小取出。

Kafka Sink

Kafka Sink将会使用FlumeEvent header中的topic和key属性来将event发送给Kafka。如果FlumeEvent的header中有topic属性，那么此event将会发送到header的topic属性指定的topic中。如果FlumeEvent的header中有key属性，此属性将会被用来对此event中的数据指定分区，具有相同key的event将会被划分到相同的分区中，如果key属性null，那么event将会被发送到随机的分区中。

可以通过自定义拦截器来设置某个event的header中的key或者topic属性。